1. 可以考虑用一个 阶矩阵 五、拟牛顿法 - 图1 来近似代替 。

    2. 先看海森矩阵满足的条件:五、拟牛顿法 - 图2

      • 令 。则有:五、拟牛顿法 - 图3,或者 。

        这称为拟牛顿条件。

      • 根据牛顿法的迭代: 五、拟牛顿法 - 图4,将 在 五、拟牛顿法 - 图5 的一阶泰勒展开:

        五、拟牛顿法 - 图6 是正定矩阵时,总有 ,因此每次都是沿着函数递减的方向迭代。

    3. 如果选择 五、拟牛顿法 - 图7 作为 的近似时,五、拟牛顿法 - 图8 同样要满足两个条件:

      • 必须是正定的。

      • 五、拟牛顿法 - 图9 满足拟牛顿条件: 。

        因为 五、拟牛顿法 - 图10 是给定的初始化条件,所以下标从 开始。

      按照拟牛顿条件,在每次迭代中可以选择更新矩阵 五、拟牛顿法 - 图11

    4. 正定矩阵定义:设 是 五、拟牛顿法 - 图12 阶方阵,如果对任何非零向量 ,都有 五、拟牛顿法 - 图13,就称 正定矩阵。

      • 正定矩阵判定:

        • 判定定理1:对称阵 五、拟牛顿法 - 图14 为正定的充分必要条件是: 的特征值全为正。
        • 判定定理2:对称阵 五、拟牛顿法 - 图15 为正定的充分必要条件是: 的各阶顺序主子式都为正。
        • 判定定理3:任意阵 五、拟牛顿法 - 图16 为正定的充分必要条件是: 合同于单位阵。
      • 正定矩阵的性质:

        • 正定矩阵一定是非奇异的。奇异矩阵的定义:若 五、拟牛顿法 - 图17 阶矩阵 为奇异阵,则其的行列式为零,即 五、拟牛顿法 - 图18
        • 正定矩阵的任一主子矩阵也是正定矩阵。
        • 若 为五、拟牛顿法 - 图19 阶对称正定矩阵,则存在唯一的主对角线元素都是正数的下三角阵 ,使得 五、拟牛顿法 - 图20,此分解式称为 正定矩阵的乔列斯基()分解。
        • 若 为 五、拟牛顿法 - 图21 阶正定矩阵,则 为 五、拟牛顿法 - 图22 阶可逆矩阵。
      • 所有特征值大于零的对称矩阵也是正定矩阵。

    5. 合同矩阵:两个实对称矩阵 和 五、拟牛顿法 - 图23 是合同的,当且仅当存在一个可逆矩阵 ,使得 五、拟牛顿法 - 图24

      • 的合同变换:对某个可逆矩阵 五、拟牛顿法 - 图25,对 执行 五、拟牛顿法 - 图26
    1. DFP算法( Davidon-Fletcher-Powell) 选择 的方法是:

      假设每一步迭代中 五、拟牛顿法 - 图27 是由 加上两个附加项构成:五、拟牛顿法 - 图28,其中 是待定矩阵。此时有:五、拟牛顿法 - 图29

      为了满足拟牛顿条件,可以取:。

      这样的五、拟牛顿法 - 图30 不止一个。例如取 :

      五、拟牛顿法 - 图31

      可以证明:如果初始矩阵 是正定的,则迭代过程中每个矩阵 五、拟牛顿法 - 图32 都是正定的。

    2. DFP算法:

      • 输入:

        • 目标函数
        • 梯度 五、拟牛顿法 - 图33
        • 精度要求
      • 输出: 五、拟牛顿法 - 图34 的极小值点

      • 算法步骤:

        • 选取初始值 五、拟牛顿法 - 图35, 取 为正定对称矩阵,置 五、拟牛顿法 - 图36

        • 迭代,停止条件为:梯度收敛。迭代步骤为:

          • 计算 。

          • 五、拟牛顿法 - 图37, 则停止计算,得到近似解 。

          • 五、拟牛顿法 - 图38, 则:

            • 计算 。
            • 一维搜索:求 五、拟牛顿法 - 图39: 。
            • 设置 五、拟牛顿法 - 图40
            • 计算 。若 五、拟牛顿法 - 图41, 则停止计算,得到近似解 。
            • 否则计算 五、拟牛顿法 - 图42,置 ,继续迭代。
    1. 是最流行的拟牛顿算法。 DFP算法中,用 五、拟牛顿法 - 图43 逼近 。换个角度看,可以用矩阵 五、拟牛顿法 - 图44 逼近海森矩阵 。此时对应的拟牛顿条件为: 五、拟牛顿法 - 图45

    2. 令: ,有: 五、拟牛顿法 - 图46

      可以取 。寻找合适的 五、拟牛顿法 - 图47 ,可以得到 BFGS 算法矩阵的 的迭代公式:

      五、拟牛顿法 - 图48

      可以证明,若 是正定的,则迭代过程中每个矩阵 五、拟牛顿法 - 图49 都是正定的。

    3. BFGS算法:

      • 输入:

        • 目标函数
        • 梯度 五、拟牛顿法 - 图50
        • 精度要求
      • 输出: 五、拟牛顿法 - 图51 的极小值点

      • 算法步骤:

        • 迭代,停止条件为:梯度收敛。迭代步骤为:

          • 计算 五、拟牛顿法 - 图52

          • 若 , 则停止计算,得到近似解 五、拟牛顿法 - 图53

          • 若 , 则:

            • 五、拟牛顿法 - 图54 求出 。

              这里表面上看需要对矩阵求逆。但是实际上 五、拟牛顿法 - 图55 有迭代公式。根据Sherman-Morrison 公式以及 的迭代公式,可以得到 五、拟牛顿法 - 图56 的迭代公式。

            • 一维搜索:求 : 五、拟牛顿法 - 图57

            • 设置 。

            • 计算 五、拟牛顿法 - 图58。若 , 则停止计算,得到近似解 五、拟牛顿法 - 图59

            • 否则计算 ,置 五、拟牛顿法 - 图60 ,继续迭代。

    4. 算法中,每一次 增加的方向是 五、拟牛顿法 - 图61 的方向。增加的幅度由 决定,若跨度过大容易引发震荡。

      gradient_descent_newton_dfp

    1. 若记 ,则对式子:

      五、拟牛顿法 - 图63

      使用两次Sherman-Morrison公式可得:

    2. 公式:假设 五、拟牛顿法 - 图64 是 阶可逆矩阵, 五、拟牛顿法 - 图65 是 维列向量,且 五、拟牛顿法 - 图66 也是可逆矩阵,则:

      .