对于任意两个主题,我们考虑其前K个词的分布,我们提供了两个指标进行冗余性评估:

    • 对于任意两个主题,计算它们前K个词的Jaccard Similarity,定义为:
    • 对于任意两个主题,计算它们前K个词的Weighted Jaccard Similarity,定义为:
      主题去重工具 - 图1

    如果相似性 ≥ 用户定义的Jaccard_thresh,即认定这两个主题存在较大的冗余。

    使用方法

    运行脚本对训练好的主题模型进行去重:

    • conf是模型配置文件,默认为lda.conf
    • 是每个主题选取前K个词进行相似度计算,默认为30
    • Jac_opt选择衡量策略,0表示启用Jaccard Similarity,1表示启用Weighted Jaccard Similarity
    • 是输出文件
      运行上述命令对新闻LDA模型进行去重,效果如下:
    1. Merge 1036 redundant topics into 87 topics (sets).
    2. Now, in total we have 1051 refined topics.