1. 可以通过构建广义拉格朗日函数来求解该约束最优化问题。

      定义广义拉格朗日函数: 。则上述约束最优化问题的解由下式给出:

      二、显式约束正则化 - 图1

      这和参数范数正则化是相同的,因此可以将参数范数正则化视为对参数强加的约束:

      • 如果 是 二、显式约束正则化 - 图2 范数,则权重就是被约束在一个 球中。
    2. 也可以通过重投影来求解该约束最优化问题。此时需要修改梯度下降算法:首先计算 二、显式约束正则化 - 图3 的下降步,然后将 投影到满足 二、显式约束正则化 - 图4 的最近点。

    3. 使用显式约束,而不是使用范数正则化有两个好处:

        • 当使用显式约束时,算法不鼓励权重接近原点,因此工作的较好。
      • 使用显式约束对优化过程增加了一定的稳定性。

        如:当使用了较高的学习率时,很可能进入了正反馈:较大的权重产生了较大的梯度,较大的梯度诱发权重的更大的更新。

        如果这些更新持续增加了权重的大小,则 就会迅速增大直到溢出。显式约束可以防止这种反馈环引起的权重的无限制持续增加。

    4. 在实践中,列范数的限制总是通过重投影的显式约束来实现。