• 文档-主题分布 不是随机变量,而是未知的常量。
      • 主题-单词分布 六、模型讨论 - 图1 也不是随机变量,也是未知的常量。

      pLSA 通过拟合训练数据集来求解这些参数,这意味着这些参数只能表征当前的训练集的文档的特征。对于未知的文档,pLSA 认为它也符合训练集的文档特征。

      事实上这就是一种过拟合,尤其是当训练集的文档数量太少时,非常容易陷入过拟合。

      LDA 会给 加入一些先验性的知识。当数据量较小,先验性的知识会占据主导地位;当数据量较大,真实数据占据主导地位。

    1. 当数据量足够大的时候, pLSALDA 的结果相差无几。这是因为当数据量足够大时,真实数据的信息会淹没掉先验知识。