一、Unigram Model

来源 1 浏览 601 扫码分享 2020-06-07 18:15:41

- 每次抛一次骰子，抛出的面就对应于产生一个单词。
- 如果一篇文档有个单词，则独立的抛掷次骰子就产生着个单词。
令骰子的投掷出各个面的概率为，其中为抛出的面是第面的概率：。满足约束：

就是待求的参数。
假设文档包含个单词，这些单词依次为：，其中。用代表文档，则生成这篇文档的概率为：

在中，称作的上下文。由于采取的是词袋模型，没有考虑上下文，所以有：

于是有：
- 如果考虑了上下文（即抛弃词袋模型），则各种单词的组合会导致爆炸性的复杂度增长。
假设单词中，有个，有个，…有个，其中，则：
参数估计：就是估计骰子的投掷出各个面的概率

假设数据集包含篇文档。对文档，假设其单词依次为，用来表示。其中：
- 表示文档的第个单词为单词。
- 表示文档一共有个单词。
由于每篇文档都是独立的且不考虑文档的顺序和单词的顺序，则数据集发生的概率

假设数据集的所有单词中，有个，有个，…有个。其中，为所有文档的所有单词的数量。则有：
使用最大似然估计法，也就是最大化对数的：

于是求解：

用拉格朗日乘子法求解，其解为：

其物理意义为：单词出现的概率等于它在数据集中出现的频率，即：它出现的次数除以数据集所有单词数。

根据贝叶斯学派的观点，参数也是一个随机变量而不再是一个常量，它服从某个概率分布，这个分布称作参数的先验分布。

此时：

根据前面的推导有：，则有：
此处先验分布有多种选择。注意到数据集条件概率刚好是多项式分布的形式，于是选择先验分布为多项式分布的共轭分布，即狄利克雷分布：

其中：为参数向量，为函数：

显然根据定义有：
后验概率：

可见后验概率服从狄利克雷分布。
因为这时候的参数是一个随机变量，而不再是一个固定的数值，因此需要通过对后验概率最大化或者期望来求得。
- 这里使用期望值来做参数估计。
  
  由于后验分布服从狄利克雷分布，则有期望：
  
  即参数的估计值为：
  
  考虑到在狄利克雷分布中的物理意义为：事件的先验的伪计数。因此该估计式物理意义为：估计值是对应事件计数（伪计数+真实计数）在整体计数中的比例。
- 这里并没有使用最大似然数据集来做参数估计，因为中并没有出现参数。

文档生成算法：根据主题模型求解的参数来生成一篇新的文档。
最大似然模型的生成文档步骤：

根据词汇分布，从词汇表中独立重复采样次从而获取个单词。则这些单词就生成一篇文档。
最大后验估计的生成文档的步骤为：
- 根据参数为的狄利克雷分布随机采样一个词汇分布。
  
  所谓随机采样一个词汇分布，即：根据狄里克雷分布生成一个随机向量。选择时要求：
- 根据词汇分布，从词汇表中独立重复采样次从而获取个单词。则这些单词就生成一篇文档。

本文档使用 BookStack 构建

展开/收起文章目录