18.主题模型 - 六、模型讨论 - 《AI算法工程师手册》

- 文档-主题分布不是随机变量，而是未知的常量。
- 主题-单词分布也不是随机变量，也是未知的常量。
pLSA 通过拟合训练数据集来求解这些参数，这意味着这些参数只能表征当前的训练集的文档的特征。对于未知的文档，pLSA 认为它也符合训练集的文档特征。

事实上这就是一种过拟合，尤其是当训练集的文档数量太少时，非常容易陷入过拟合。

LDA 会给加入一些先验性的知识。当数据量较小，先验性的知识会占据主导地位；当数据量较大，真实数据占据主导地位。
当数据量足够大的时候， pLSA 跟 LDA 的结果相差无几。这是因为当数据量足够大时，真实数据的信息会淹没掉先验知识。