概念

数据集

本文演示用的数据集,依然使用搜狗新闻数据集SogouCS。我们从SogouCS中提取正文内容,每个URL对应的正文当做一篇文档,并且使用jieba进行了分词。演示期间我们提取SogouCS的前10000条数据用于计算LDA。

特征提取

衡量指标

无监督学习的性能衡量方式不像监督学习那样直观,目前常见的衡量方式包括一下几种:

聚类算法

常用于文本聚类的算法包括kmeans、dbscan等。

dbscan

参考文献