四、参数估计准则

来源 1 浏览 718 扫码分享 2020-06-07 18:12:03

是一族由参数控制的概率分布函数族，希望通过来估计真实的概率分布函数，也就是要估计参数。
最大似然估计最大化数据集出现的概率。即：
- 由于概率的乘积会因为很多原因不便使用（如容易出现数值下溢出），因此转换为对数的形式：。
- 因为与无关，因此它也等价于：。
- 由于数据集的经验分布为：，其中为狄拉克函数。因此：。
最大似然估计可以扩展到估计条件概率。

假设数据集，对应的观测值为。则条件概率的最大似然估计为：。

如果样本是独立同分布的，则可以分解成：。
最大似然估计有两个很好的性质：
- 这些条件为：
  - 真实分布必须位于分布函数族中；否则没有估计量可以表示。
  - 真实分布必须对应一个值；否则从最大似然估计恢复出真实分布之后，也不能解出参数。
- 最大似然估计具有很好的统计效率。即只需要较少的样本就能达到一个良好的泛化误差。
最大似然估计通常是机器学习中的首选估计准则。
当样本数量太少导致过拟合时，正则化技巧是最大似然的有偏估计版本。

4.2 贝叶斯估计

4.2.1 贝叶斯估计 vs 最大似然估计

在最大似然估计中，频率学派的观点是：真实参数是未知的固定的值，而点估计是随机变量。因为数据是随机生成的，所以数据集是随机的。

在贝叶斯估计中，贝叶斯学派认为：数据集是能够直接观测到的，因此不是随机的。而真实参数是未知的、不确定的，因此是随机变量。
- 假设观测到一组数据，根据贝叶斯法则，有：
贝叶斯估计与最大似然估计有两个重要区别：
- 贝叶斯估计预测下，一个样本的分布为：
  
  而最大似然估计预测下，一个样本的分布为：
- 贝叶斯估计会使得概率密度函数向着先验概率分布的区域偏移。
当训练数据有限时，贝叶斯估计通常比最大似然估计泛化性能更好。

当训练样本数量很大时，贝叶斯估计往往比最大似然估计计算代价较高。

4.2.2 最大后验估计

有时候希望获取参数的一个可能的值，而不仅仅是它的一个分布。此时可以通过最大后验估计选择后验概率最大的点：
最大后验估计具有最大似然估计没有的优势：拥有先验知识带来的信息。该信息有助于减少估计量的方差，但是增加了偏差。
一些正则化方法可以被解释为最大后验估计，正则化项就是对应于。
- 并非所有的正则化方法都对应为某个最大后验估计。
  
  如：有些正则化项依赖于数据，则显然不是一个先验概率分布

本文档使用 BookStack 构建

展开/收起文章目录