特征提取参考文献概念 数据集本文演示用的数据集,依然使用搜狗新闻数据集SogouCS。我们从SogouCS中提取正文内容,每个URL对应的正文当做一篇文档,并且使用jieba进行了分词。演示期间我们提取SogouCS的前10000条数据用于计算LDA。 特征提取 衡量指标无监督学习的性能衡量方式不像监督学习那样直观,目前常见的衡量方式包括一下几种: 聚类算法常用于文本聚类的算法包括kmeans、dbscan等。 dbscan 参考文献