-
是一族由 参数控制的概率分布函数族,希望通过 来估计真实的概率分布函数 ,也就是要估计 参数。
最大似然估计最大化数据集 出现的概率。即:
- 由于概率的乘积会因为很多原因不便使用(如容易出现数值下溢出),因此转换为对数的形式: 。
- 因为 与 无关,因此它也等价于: 。
- 由于数据集的经验分布为: ,其中 为狄拉克函数。因此: 。
最大似然估计可以扩展到估计条件概率。
假设数据集 ,对应的观测值为 。则条件概率的最大似然估计为: 。
如果样本是独立同分布的,则可以分解成: 。
最大似然估计有两个很好的性质:
-
这些条件为:
- 真实分布 必须位于分布函数族 中;否则没有估计量可以表示 。
- 真实分布 必须对应一个 值;否则从最大似然估计恢复出真实分布 之后,也不能解出参数 。
- 最大似然估计具有很好的统计效率。即只需要较少的样本就能达到一个良好的泛化误差。
-
最大似然估计通常是机器学习中的首选估计准则。
当样本数量太少导致过拟合时,正则化技巧是最大似然的有偏估计版本。
4.2 贝叶斯估计
4.2.1 贝叶斯估计 vs 最大似然估计
在最大似然估计中,频率学派的观点是:真实参数 是未知的固定的值,而点估计 是随机变量。因为数据是随机生成的,所以数据集是随机的。
在贝叶斯估计中,贝叶斯学派认为:数据集是能够直接观测到的,因此不是随机的。而真实参数 是未知的、不确定的,因此 是随机变量。
假设观测到一组数据 ,根据贝叶斯法则,有:
贝叶斯估计与最大似然估计有两个重要区别:
贝叶斯估计预测下,一个样本的分布为:
而最大似然估计预测下,一个样本的分布为:
贝叶斯估计会使得概率密度函数向着先验概率分布的区域偏移。
当训练数据有限时,贝叶斯估计通常比最大似然估计泛化性能更好。
当训练样本数量很大时,贝叶斯估计往往比最大似然估计计算代价较高。
4.2.2 最大后验估计
有时候希望获取参数 的一个可能的值,而不仅仅是它的一个分布。此时可以通过最大后验估计 选择后验概率最大的点:
最大后验估计具有最大似然估计没有的优势:拥有先验知识带来的信息。该信息有助于减少估计量的方差,但是增加了偏差。
一些正则化方法可以被解释为最大后验估计,正则化项就是对应于 。
并非所有的正则化方法都对应为某个最大后验估计。
如:有些正则化项依赖于数据,则显然不是一个先验概率分布