基于Spark的协同过滤算法并行化研究

时间:2022-10-22 20:37:11
作者:陆俊尧,李玲娟
关键字:协同过滤,Spark平台,并行化,基于项目
DOI:10.3969/j.issn.1673-629X.2019.01.018
查看次数:753

如需要完整文档点击下方 "点击下载文档" 按钮

协同过滤算法在推荐系统中应用广泛.但是随着数据量的爆炸式增长,协同过滤算法所需的计算量也随之增长.针对传统的单机集中式计算已无法满足推荐系统的实时性和扩展性要求的问题,基于主流的大数据平台Spark在迭代计算以及内存计算方面的优势,设计了一种基于项目的协同过滤算法在Spark上的并行化方案.该方案利用RDD并行化计算的特点,通过合理设计RDD算子来实现对物品间相似度计算过程和评分计算过程的并行化,同时采用了RDD的缓存机制以及Spark中的广播变量来对一些重要的计算资源进行缓存与分发,从而提高计算速度.用MovieLens公开数据集对基于Spark平台的并行化Item-Based协同过滤算法的性能进行测试,结果表明该并行化协同过滤算法在准确性以及时效性方面均有较好的表现.

如需要完整文档点击下方 "点击下载文档" 按钮

基于Spark的协同过滤算法并行化研究
《基于Spark的协同过滤算法并行化研究》
完整文档 下载到本地,方便收藏和查阅
文件号:061935
基于Spark的协同过滤算法并行化研究
点击下载文档
基于Spark的协同过滤算法并行化研究

点击下载 文件号:061935(点击复制) 公众号(点击复制)

x