5. Lasso回归（套索回归）

在正则化里面，提到了L1正则化和L2正则化，其实Lasso回归就是利用了L1正则化的回归模型，其主要作用就是来自L1正则化的作用，理解了L1正则化，Lasso回归也就明白了。

他是一种线性回归模型，是在线性回归 1. 线性回归的基础至上作出的改进，他不仅可以能够找到最佳的预测模型，还可以自动选择出最重要的特征（就是L1正则化，会将部分权重置为0的作用）。

为什么要用Lssso回归呢？

就是在处理数据时，我们经常会遇到很多特征（变量），但不是所有特征都对结果有重要影响。Lasso回归能帮助我们自动筛选出最有用的特征，忽略那些不重要的，这样模型更简单、预测效果更好。

就是正则化正则化里面所讲到的理论基础。其核心就是在优化的过程中，使某些权重置为0，这样就实现了特征的选择。

优化过程：

$$ J(\mathbf{w}) = \sum_{i=1}^n (y_i - \mathbf{x}_i^\top \mathbf{w}) $$

$$ J_{\text{Lasso}}(\mathbf{w}) = \sum_{i=1}^n (y_i - \mathbf{x}i^\top \mathbf{w})^2 + \lambda \sum{j=1}^p |w_j| $$

$$ \mathbf{w}' \leftarrow \mathbf{w} - \alpha \nabla J_{\text{Lasso}}(\mathbf{w}) $$

$\nabla J_{\text{Lasso}}(\mathbf{w})$包含原始损失函数（残差平方和）的梯度和正则化项的梯度，那么参数的更新就变为:

$$ w' = w- \alpha \left( \frac{\partial J}{\partial w_i} + \lambda \cdot \text{sign}(w_i) \right) $$

然后由于正则化项在0附近梯度的问题，会使一些权重被置为0，详细可以参考正则化里面所描述的L1正则化部分。

在正则化里面从理论上分析了，为什么一些权重会变为0，下面从几何的角度上可视化的讲解一下，同时也会并带着 4. Ridge回归（岭回归） Ridge回归（岭回归）。

Lasso回归：

$$ L_{\text{reg}}(\theta) = L(\theta) + \lambda \sum |w_i| $$