1. 普遍的做法是:希望通过降低代价函数 来提高 一、代价函数 - 图1。这不同于纯粹的最小化 本身,因为最终目标是提高 一、代价函数 - 图2

      当代价函数 最小时是否 一、代价函数 - 图3 最大?这一结论是未知的。

    2. 理论上,代价函数中的期望最好取自真实的数据生成分布 ,而不是有限个训练集上对应的经验分布 一、代价函数 - 图4 。即: ,一、代价函数 - 图5 称作泛化误差。

      实际应用中,使用经验分布 来代替真实分布 一、代价函数 - 图6 。这就是为什么使用 作为代价函数的原因。

    3. 最小化训练集上的期望损失称作最小化经验风险empirical risk 。其缺点是:

      • 很容易过拟合 。

    1.2 替代损失函数

    1. 有时候真正的代价函数无法有效优化,此时可以考虑使用替代损失函数 来代替真实的损失函数。

    2. 一般的优化和机器学习优化的一个重要不同:机器学习算法通常并不收敛于代价函数的局部极小值。因为:

      • 机器学习算法通常使用替代损失函数

        算法终止时,可能出现:采用 的代价函数的导数较小,而采用真实损失函数的代价函数的导数仍然较大(相比较于0值)。