一、代价函数

来源 1 浏览 817 扫码分享 2020-06-07 18:37:05

普遍的做法是：希望通过降低代价函数来提高。这不同于纯粹的最小化本身，因为最终目标是提高。

当代价函数最小时是否最大？这一结论是未知的。
理论上，代价函数中的期望最好取自真实的数据生成分布，而不是有限个训练集上对应的经验分布。即：，称作泛化误差。

实际应用中，使用经验分布来代替真实分布。这就是为什么使用作为代价函数的原因。
最小化训练集上的期望损失称作最小化经验风险empirical risk 。其缺点是：
- 很容易过拟合。

1.2 替代损失函数

有时候真正的代价函数无法有效优化，此时可以考虑使用替代损失函数 来代替真实的损失函数。
一般的优化和机器学习优化的一个重要不同：机器学习算法通常并不收敛于代价函数的局部极小值。因为：
- 机器学习算法通常使用替代损失函数。
  
  算法终止时，可能出现：采用的代价函数的导数较小，而采用真实损失函数的代价函数的导数仍然较大（相比较于0值）。

本文档使用 BookStack 构建

展开/收起文章目录