3.正则化 - 二、显式约束正则化 - 《AI算法工程师手册》

可以通过构建广义拉格朗日函数来求解该约束最优化问题。

定义广义拉格朗日函数：。则上述约束最优化问题的解由下式给出：

这和参数范数正则化是相同的，因此可以将参数范数正则化视为对参数强加的约束：
- 如果是范数，则权重就是被约束在一个球中。
也可以通过重投影来求解该约束最优化问题。此时需要修改梯度下降算法：首先计算的下降步，然后将投影到满足的最近点。
使用显式约束，而不是使用范数正则化有两个好处：
- - 当使用显式约束时，算法不鼓励权重接近原点，因此工作的较好。
- 使用显式约束对优化过程增加了一定的稳定性。
  
  如：当使用了较高的学习率时，很可能进入了正反馈：较大的权重产生了较大的梯度，较大的梯度诱发权重的更大的更新。
  
  如果这些更新持续增加了权重的大小，则就会迅速增大直到溢出。显式约束可以防止这种反馈环引起的权重的无限制持续增加。
在实践中，列范数的限制总是通过重投影的显式约束来实现。