如需要完整文档点击下方 "点击下载文档" 按钮
计算机技术与发展,Computer Technology and Development2018,(9) 【摘要】鉴于线性文本内容组织形式的有序性,将有序的主题内容进行正确的划分,用于挖掘文本中隐藏的信息、知识,是一个值得研究的问题.同时,传统的K-means聚类算法在对线性文本进行聚类时,会造成计算复杂度增加以及无穷迭代或聚类结果混乱等一系列问题.针对以上问题,对传统的K-means算法进行研究,将随机初始化中心点的算法进行改进,提出一种随机均匀初始化中心点算法.该算法充分考虑线性文本的组织结构特性,随机化第一个中心点后,均匀地确定其他中心点,保证了文本子主题的完整划分;与此同时,又采用了设定约束规则的等距点归类法,实现文本迭代次数限制下的自动归类.实验结果表明,该算法在对线性文本进行聚类时,可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果.
如需要完整文档点击下方 "点击下载文档" 按钮
《面向线性文本的K-means聚类算法研究》
将 完整文档 下载到本地,方便收藏和查阅
文件号:062735
点击下载文档