-
- 文档-主题分布 不是随机变量,而是未知的常量。
- 主题-单词分布 也不是随机变量,也是未知的常量。
pLSA
通过拟合训练数据集来求解这些参数,这意味着这些参数只能表征当前的训练集的文档的特征。对于未知的文档,pLSA
认为它也符合训练集的文档特征。事实上这就是一种过拟合,尤其是当训练集的文档数量太少时,非常容易陷入过拟合。
LDA
会给 加入一些先验性的知识。当数据量较小,先验性的知识会占据主导地位;当数据量较大,真实数据占据主导地位。 当数据量足够大的时候,
pLSA
跟LDA
的结果相差无几。这是因为当数据量足够大时,真实数据的信息会淹没掉先验知识。