-
普遍的做法是:希望通过降低代价函数 来提高 。这不同于纯粹的最小化 本身,因为最终目标是提高 。
当代价函数 最小时是否 最大?这一结论是未知的。
理论上,代价函数中的期望最好取自真实的数据生成分布 ,而不是有限个训练集上对应的经验分布 。即: , 称作泛化误差。
实际应用中,使用经验分布 来代替真实分布 。这就是为什么使用 作为代价函数的原因。
最小化训练集上的期望损失称作最小化经验风险
empirical risk
。其缺点是:很容易过拟合 。
1.2 替代损失函数
有时候真正的代价函数无法有效优化,此时可以考虑使用
替代损失函数
来代替真实的损失函数。一般的优化和机器学习优化的一个重要不同:机器学习算法通常并不收敛于代价函数的局部极小值。因为:
机器学习算法通常使用
替代损失函数
。算法终止时,可能出现:采用 的代价函数的导数较小,而采用真实损失函数的代价函数的导数仍然较大(相比较于0值)。