对于任意两个主题,我们考虑其前K个词的分布,我们提供了两个指标进行冗余性评估:
- 对于任意两个主题,计算它们前K个词的Jaccard Similarity,定义为:
- 对于任意两个主题,计算它们前K个词的Weighted Jaccard Similarity,定义为:
如果相似性 ≥ 用户定义的Jaccard_thresh,即认定这两个主题存在较大的冗余。
使用方法
运行脚本对训练好的主题模型进行去重:
conf
是模型配置文件,默认为lda.conf- 是每个主题选取前K个词进行相似度计算,默认为30
Jac_opt
选择衡量策略,0表示启用Jaccard Similarity,1表示启用Weighted Jaccard Similarity- 是输出文件
运行上述命令对新闻LDA模型进行去重,效果如下:
Merge 1036 redundant topics into 87 topics (sets).
Now, in total we have 1051 refined topics.