案例1: 新闻质量分类

    为了提升用户体验,我们通常会构建一个分类器来自动过滤低质量的新闻。我们可以人工设计一些传统特征:新闻来源站点、新闻内容长度、图片数量、新闻热度等等。除了这些人工特征,也可利用主题模型来计算每篇新闻的主题分布,作为附加特征与人工特征一起组成新特征集合(图2(a))。我们对7000篇新闻进行人工标注,新闻质量划分为0、1、2共3个档位,其中0档表示质量最差,2档表示质量最优。我们采用Gradient Boost Decision Tree (GBDT) 在5000篇新闻上进行训练,并在另外2000篇标注新闻数据上做测试。图2(b)展示了只使用人工特征和加入主题模型特征上的实验结果。从这些实验结果可以看出,主题分布作为特征扩充可以有效提升分类器的效果。

    案例2: 新闻聚类

    文档的主题分布可看做是包含语义信息的一个降维过程,低维的主题分布特征可以用来对文档进行聚类。表3中展示了基于主题分布特征进行K-means聚类的部分结果。从表中可以看出,新闻的主题分布可以很好的完成聚类任务,在簇1中显示的是与房子装修相关的新闻,簇2中则是聚集了与股票相关的新闻。每个簇内的新闻都具有很好的语义相关性。表3

    案例3: 网页内容丰富度