在 正则化 里面,提到了L1正则化和L2正则化,其实Lasso回归就是利用了L1正则化的回归模型,其主要作用就是来自L1正则化的作用,理解了L1正则化,Lasso回归也就明白了。
他是一种线性回归模型,是在线性回归 1. 线性回归 的基础至上作出的改进,他不仅可以能够找到最佳的预测模型,还可以自动选择出最重要的特征(就是L1正则化,会将部分权重置为0的作用)。
为什么要用Lssso回归呢?
就是在处理数据时,我们经常会遇到很多特征(变量),但不是所有特征都对结果有重要影响。Lasso回归能帮助我们自动筛选出最有用的特征,忽略那些不重要的,这样模型更简单、预测效果更好。
就是正则化正则化里面所讲到的理论基础。其核心就是在优化的过程中,使某些权重置为0,这样就实现了特征的选择。
优化过程:
$$ J(\mathbf{w}) = \sum_{i=1}^n (y_i - \mathbf{x}_i^\top \mathbf{w}) $$
$$ J_{\text{Lasso}}(\mathbf{w}) = \sum_{i=1}^n (y_i - \mathbf{x}i^\top \mathbf{w})^2 + \lambda \sum{j=1}^p |w_j| $$
$$ \mathbf{w}' \leftarrow \mathbf{w} - \alpha \nabla J_{\text{Lasso}}(\mathbf{w}) $$
$\nabla J_{\text{Lasso}}(\mathbf{w})$包含原始损失函数(残差平方和)的梯度和正则化项的梯度,那么参数的更新就变为:
$$ w' = w- \alpha \left( \frac{\partial J}{\partial w_i} + \lambda \cdot \text{sign}(w_i) \right) $$
然后由于正则化项在0附近梯度的问题,会使一些权重被置为0,详细可以参考 正则化 里面所描述的L1正则化部分。
在 正则化 里面从理论上分析了,为什么一些权重会变为0,下面从几何的角度上可视化的讲解一下,同时也会并带着 4. Ridge回归(岭回归) Ridge回归(岭回归)。
Lasso回归:
$$ L_{\text{reg}}(\theta) = L(\theta) + \lambda \sum |w_i| $$