L1与L2正则

在模型较为复杂的情况下,我们常常用到正则化项来进行约束。

模型的训练是建立在经验风险最小化的角度,而加入的正则化项则是站在结构风险最小化的角度。所以问题变为经验风险和结构风险的共同优化问题。

而L1和L2正则也有多种角度的解释

首先L1正则(Lasso回归)是在原有的loss function上加入权重向量w的 1-范数,L2正则(岭回归)是在原有的loss function上加入权重向量w的 2-范数的平方。

下面从多个角度解释:

  • 图像解释
目标函数的等高线

令F为正则化项的值的话,F值固定,可以得到的L1,L2的图像为:

L1和L2

在上图中,可以看到,等值线与正则化项为F的图像 相切 于黑点。此时,对于红圈的值而言,w1和w2就是使结构风险最小化的参数。这也符合奥卡姆剃刀原则,对于能够达到相同效果的模型,选取最简单的。

这里为什么选择切点:如果令F值变大,则正则化项的图像向外扩张,可与红圈相交出现交点,但交点处对应的参数,虽然一样可以获得红圈代表的函数值,但所带来的的结构风险变大。所以相对于整个目标函数而言,经验风险不变,结构风险变大,所以并不会选取。

从另一个角度看L1正则的图像可以看到,由于图像不是平滑曲线并且在坐标轴方向有很多顶点,等值线更容易于顶点相切,从而使得某些参数为0(从而进行了特征选择),得到稀疏解。

当加入L2正则化的时候,分析和L1正则化是类似的,也就是说我们仅仅是从菱形变成了圆形而已,同样还是求原曲线和圆形的切点作为最终解。当然与L1范数比,我们这样求的L2范数的从图上来看,不容易交在坐标轴上,但是仍然比较靠近坐标轴因此这也就是我们老说的,L2范数能让解比较小(靠近0),但是比较平滑(不等于0)。

  • 求导角度
  • 先验概率角度

Leave a Reply

Your email address will not be published. Required fields are marked *