如需要完整文档点击下方 "点击下载文档" 按钮
关联规则挖掘是一项重要的数据挖掘任务,关联规则挖掘算法能从数据中挖掘出潜在的关联关系,其中 Apriori 算法是典型代表。 Spark 平台是一个分布式的基于内存的适合迭代计算的大数据框架。 以提高强关联规则的挖掘效率为目标,设计了一种 Apriori 算法基于 Spark 的并行化方案。 该方案利用 Spark 平台的分布式架构以及集群调度机制,将事务数据集分发给多个子节点,各子节点调用 transformation 操作求得局部候选项集及支持度,并存储于内存中;汇总节点中的局部候选项集产生全局候选项集和全局频繁项集;不断迭代,直到下一级候选项集不存在为止。 性能测试实验结果表明,基于 Spark 平台的并行化 Apriori 算法可以有效地分析大型数据项集之间的频繁项集和提取强关联规则,具有较高的准确性和时效性。
如需要完整文档点击下方 "点击下载文档" 按钮
《基于 Spark 的关联规则挖掘算法并行化研究》
将 完整文档 下载到本地,方便收藏和查阅
文件号:062013
点击下载文档