基于 TFIDF+LSA 算法的新闻文本聚类与可视化

时间:2022-01-13 01:41:46
作者:郝秀慧,方贤进,杨高明
关键字:词频反文档频率,潜在语义分析,文本聚类速度,文本聚类可视化,kmeans
DOI:10.3969/j.issn.1673-629X.2022.07.006
查看次数:871

如需要完整文档点击下方 "点击下载文档" 按钮

近几年来,文本聚类技术作为机器学习领域一种无监督学习的方法,也越来越成为数据挖掘领域备受关注的技术之一。 将小规模的文本数据聚为几类,在一定程度上说是一件比较容易实现的工作。 可是,当面对大量高维的中文文本数据时,由于在这种情况下对文本聚类,面对的将是高维和稀疏的数据,在保证聚类质量的情况下,提高聚类的速度和可视化效果也 成 为 聚 类 研 究 的 课 题 之 一。 该 文 提 出 一 种 结 合 词 频 反 文 档 频 率 算 法 ( term frequency, inverse documentfrequency,TFIDF)和潜在语义分析算法( latent semantic analysis,LSA) 相结合的方法,来提高 kmeans 中文文本聚类的速度和可视化效果。 将从网页上采集到的 11 456 条新闻作为实验对象,通过基于 TFIDF 聚类和基于 TFIDF+LSA 聚类进行实验对比,根据聚类指标轮廓系数(Silhouette coefficient,SC)、卡林斯基-原巴斯指数(Calinski-Harabasz index,CHI) 和戴维斯-堡丁指数( Davies-Bouldin index,DBI) 的值表明,该方法不仅能保证文本聚类的质量,还能大大提高文本聚类的速度和可视化效果。

如需要完整文档点击下方 "点击下载文档" 按钮

基于 TFIDF+LSA 算法的新闻文本聚类与可视化
《基于 TFIDF+LSA 算法的新闻文本聚类与可视化》
完整文档 下载到本地,方便收藏和查阅
文件号:059691
基于 TFIDF+LSA 算法的新闻文本聚类与可视化
点击下载文档
基于 TFIDF+LSA 算法的新闻文本聚类与可视化

点击下载 文件号:059691(点击复制) 公众号(点击复制)

x