基于 Spark 的层次聚类算法的并行化研究

时间:2023-01-06 21:17:32
作者:余胜辉,李玲娟
关键字:Spark,层次聚类,CURE,RDD,并行化
DOI:10.3969/j.issn.1673-629X.2020.06.004
查看次数:91

如需要完整文档点击下方 "点击下载文档" 按钮

随着大数据时代的来临,传统的计算模式已经不足以支撑如此大量的数据。 基于内存计算的大数据并行化计算框架 Spark 的出现很好地解决了这一问题。 CURE 是一种基于取样和代表点的层次聚类算法,它采用迭代的方式,自底向上地合并两个距离最近的簇。 与传统的聚类算法相比,CURE 算法对异常点的敏感度更小。 但是在处理大量数据的情况下,CURE 算法存在着因反复迭代而消耗大量时间的问题。 文中利用了 Spark 的 RDD 编程模型的可伸缩性和分布式等特点,实现了对 CURE 算法计算过程的并行化,提升了该算法对数据的处理速度,使算法能够适应数据规模的扩展,并且提高了聚类的性能。 在 Spark 上运用 CURE 算法对公开数据集的并行化处理结果表明,基于 Spark 的 CURE 算法并行化既保证了聚类准确率又提高了算法的时效性。

如需要完整文档点击下方 "点击下载文档" 按钮

基于 Spark 的层次聚类算法的并行化研究
《基于 Spark 的层次聚类算法的并行化研究》
完整文档 下载到本地,方便收藏和查阅
文件号:061650
基于 Spark 的层次聚类算法的并行化研究
点击下载文档
基于 Spark 的层次聚类算法的并行化研究

点击下载 文件号:061650(点击复制) 公众号(点击复制)

x