1. 是一族由 四、参数估计准则 - 图1 参数控制的概率分布函数族,希望通过 来估计真实的概率分布函数 四、参数估计准则 - 图2 ,也就是要估计 参数。

    2. 最大似然估计最大化数据集 四、参数估计准则 - 图3 出现的概率。即:

      • 由于概率的乘积会因为很多原因不便使用(如容易出现数值下溢出),因此转换为对数的形式:四、参数估计准则 - 图4
      • 因为 与 四、参数估计准则 - 图5 无关,因此它也等价于: 。
      • 由于数据集的经验分布为:四、参数估计准则 - 图6 ,其中 为狄拉克函数。因此:四、参数估计准则 - 图7
    3. 最大似然估计可以扩展到估计条件概率。

      假设数据集 ,对应的观测值为 四、参数估计准则 - 图8。则条件概率的最大似然估计为: 。

      如果样本是独立同分布的,则可以分解成:四、参数估计准则 - 图9

    4. 最大似然估计有两个很好的性质:

      • 这些条件为:

        • 真实分布 必须位于分布函数族 四、参数估计准则 - 图10 中;否则没有估计量可以表示 。
        • 真实分布 四、参数估计准则 - 图11 必须对应一个 值;否则从最大似然估计恢复出真实分布 四、参数估计准则 - 图12 之后,也不能解出参数 。
      • 最大似然估计具有很好的统计效率。即只需要较少的样本就能达到一个良好的泛化误差。
    5. 最大似然估计通常是机器学习中的首选估计准则。

    6. 当样本数量太少导致过拟合时,正则化技巧是最大似然的有偏估计版本。

    4.2 贝叶斯估计

    4.2.1 贝叶斯估计 vs 最大似然估计

    1. 在最大似然估计中,频率学派的观点是:真实参数 四、参数估计准则 - 图13 是未知的固定的值,而点估计 是随机变量。因为数据是随机生成的,所以数据集是随机的。

      在贝叶斯估计中,贝叶斯学派认为:数据集是能够直接观测到的,因此不是随机的。而真实参数 四、参数估计准则 - 图14 是未知的、不确定的,因此 是随机变量。

      • 假设观测到一组数据 四、参数估计准则 - 图15 ,根据贝叶斯法则,有:

    2. 贝叶斯估计与最大似然估计有两个重要区别:

      • 贝叶斯估计预测下,一个样本的分布为:

        而最大似然估计预测下,一个样本的分布为: 四、参数估计准则 - 图16

      • 贝叶斯估计会使得概率密度函数向着先验概率分布的区域偏移。

    3. 当训练数据有限时,贝叶斯估计通常比最大似然估计泛化性能更好。

      当训练样本数量很大时,贝叶斯估计往往比最大似然估计计算代价较高。

    4.2.2 最大后验估计

    1. 有时候希望获取参数 的一个可能的值,而不仅仅是它的一个分布。此时可以通过最大后验估计 选择后验概率最大的点:

      四、参数估计准则 - 图17

    2. 最大后验估计具有最大似然估计没有的优势:拥有先验知识带来的信息。该信息有助于减少估计量的方差,但是增加了偏差。

    3. 一些正则化方法可以被解释为最大后验估计,正则化项就是对应于 。

      • 并非所有的正则化方法都对应为某个最大后验估计。

        如:有些正则化项依赖于数据,则显然不是一个先验概率分布