• 每次抛一次骰子,抛出的面就对应于产生一个单词。
      • 如果一篇文档有 个单词,则独立的抛掷 一、Unigram Model - 图1 次骰子就产生着 个单词。
    1. 令骰子的投掷出各个面的概率为 一、Unigram Model - 图2,其中 为抛出的面是第 一、Unigram Model - 图3 面的概率:。满足约束:

      一、Unigram Model - 图4

      就是待求的参数。

    2. 假设文档包含 一、Unigram Model - 图5 个单词,这些单词依次为 : ,其中 一、Unigram Model - 图6。用 代表文档, 则生成这篇文档的概率为:

      一、Unigram Model - 图7

      在 中, 一、Unigram Model - 图8 称作 的上下文。由于采取的是词袋模型,没有考虑上下文,所以有:

      一、Unigram Model - 图9

      于是有:

      • 如果考虑了上下文(即抛弃词袋模型),则各种单词的组合会导致爆炸性的复杂度增长。
    3. 假设单词 一、Unigram Model - 图10 中,有 个 一、Unigram Model - 图11,有 个 一、Unigram Model - 图12,…有 个 一、Unigram Model - 图13 ,其中 ,则:

      一、Unigram Model - 图14

    4. 参数估计:就是估计骰子的投掷出各个面的概率

    1. 假设数据集 一、Unigram Model - 图15 包含 篇文档 一、Unigram Model - 图16 。对文档 ,假设其单词依次为 一、Unigram Model - 图17, 用 来表示。其中:

      • 一、Unigram Model - 图18 表示文档 的第 一、Unigram Model - 图19 个单词为单词 。
      • 一、Unigram Model - 图20 表示文档 一共有 一、Unigram Model - 图21 个单词。
    2. 由于每篇文档都是独立的且不考虑文档的顺序和单词的顺序,则数据集发生的概率

      假设数据集的所有单词 一、Unigram Model - 图22 中,有 个 一、Unigram Model - 图23,有 个 一、Unigram Model - 图24,…有 个 一、Unigram Model - 图25 。其中 , 一、Unigram Model - 图26 为所有文档的所有单词的数量。则有:

    3. 使用最大似然估计法,也就是最大化对数的 一、Unigram Model - 图27

      于是求解:

      用拉格朗日乘子法求解,其解为:

      一、Unigram Model - 图28

      其物理意义为:单词 出现的概率 一、Unigram Model - 图29 等于它在数据集 中出现的频率,即:它出现的次数 一、Unigram Model - 图30 除以数据集 所有单词数 一、Unigram Model - 图31

    1. 根据贝叶斯学派的观点, 参数 也是一个随机变量而不再是一个常量,它服从某个概率分布 一、Unigram Model - 图32, 这个分布称作参数 的先验分布。

      此时:

      一、Unigram Model - 图33

      根据前面的推导有: ,则有:

      一、Unigram Model - 图34

    2. 此处先验分布 有多种选择。注意到数据集条件概率 一、Unigram Model - 图35 刚好是多项式分布的形式,于是选择先验分布为多项式分布的共轭分布,即狄利克雷分布:

      其中:一、Unigram Model - 图36 为参数向量, 为函数:

      一、Unigram Model - 图37

      显然根据定义有:

    3. 后验概率 :

      一、Unigram Model - 图38

      可见后验概率服从狄利克雷分布 。

    4. 因为这时候的参数 一、Unigram Model - 图39 是一个随机变量,而不再是一个固定的数值,因此需要通过对后验概率 最大化或者期望来求得。

      • 这里使用期望值 一、Unigram Model - 图40 来做参数估计。

        由于后验分布 服从狄利克雷分布 一、Unigram Model - 图41, 则有期望:

        即参数 一、Unigram Model - 图42 的估计值为:

        考虑到 一、Unigram Model - 图43 在狄利克雷分布中的物理意义为:事件的先验的伪计数。因此该估计式物理意义为:估计值是对应事件计数(伪计数+真实计数)在整体计数中的比例。

      • 这里并没有使用最大似然数据集 来做参数估计,因为 一、Unigram Model - 图44 中并没有出现参数 。

    1. 文档生成算法:根据主题模型求解的参数来生成一篇新的文档。

    2. 最大似然模型的 生成文档步骤:

      根据词汇分布 一、Unigram Model - 图45 ,从词汇表 中独立重复采样 一、Unigram Model - 图46 次从而获取 个单词。则这些单词就生成一篇文档。

    3. 最大后验估计的 生成文档的步骤为:

      • 根据参数为 一、Unigram Model - 图47 的狄利克雷分布 随机采样一个词汇分布 一、Unigram Model - 图48

        所谓随机采样一个词汇分布,即:根据狄里克雷分布生成一个随机向量。选择时要求 :

      • 根据词汇分布 ,从词汇表 一、Unigram Model - 图49 中独立重复采样 次从而获取 一、Unigram Model - 图50 个单词。则这些单词就生成一篇文档。