1.深度前馈神经网络 - 二、损失函数 - 《AI算法工程师手册》

深度学习的一个重要方面是代价函数的选取。
- 代价函数给出的是单个样本的损失，损失函数是代价函数在所有样本上的和。
- 通常神经网络的代价函数与传统模型（如线性模型）的代价函数相同。
大多数现代的神经网络采用最大似然准则，令代价函数为负的对数似然函数。因此损失函数为：

其中：
- 为样本的经验分布：
  
  为狄拉克函数，它仅在原点处非0，在其它所有位置都为 0 ，其在整个定义域上的积分为 1 。为数据集的大小。
- 其实就是样本的经验分布与模型的交叉熵。
使用最大似然准则来导出代价函数的优势是：减轻了为每个模型设计代价函数的负担。一旦明确了一个模型，则自动地确定了一个代价函数。
代价函数的梯度必须足够大且能够计算。
- 如果代价函数非常平缓，则代价函数的梯度非常小。若梯度很小甚至消失，会导致求解模型参数的迭代过程无法推进。
- 如果代价函数太大导致发生上溢出时，数值计算会出现问题。用负的对数似然函数作为代价函数可以避免这个问题。
均方误差和平均绝对误差这两种代价函数，在使用基于梯度的优化方法时，经常会产生非常小的梯度。

这也是使用负的对数似然函数作为代价函数的一个重要原因。