如需要完整文档点击下方 "点击下载文档" 按钮
随着互联网数据量的不断膨胀,单机已经无法在可接受的时间范围内计算完基于大规模数据的推荐算法,也无法存放海量的数据。 利用 Spark 平台内存计算的优点,设计了一种分布式的基于项目的协同过滤算法,利用 Spark 提供的RDD(resilient distributed dataset) 算子完成算法的设计。 针对由于数据稀疏而导致的相似度计算不准确的问题,提出了一种利用两项目间公共用户数目进行加权的相似度计算公式,提高了最终推荐结果的准确度。 为了改善计算中涉及到的数据表等值连接操作耗时太长的问题,利用自定义的 Hash_join 函数替代 Spark 自带的连接操作算子,提高了计算效率。 采用 UCI 的公用数据集 MovieLens 对算法进行测试,并分别与改进前的算法以及单机运行的算法进行对比,结果表明,改进的算法在准确度和效率方面都有更好的表现。
如需要完整文档点击下方 "点击下载文档" 按钮
《基于 Spark 框架的改进协同过滤算法》
将 完整文档 下载到本地,方便收藏和查阅
文件号:061614
点击下载文档