一种改进的并行关联规则增量更新算法研究

时间:2023-07-17 07:40:24
作者:王诚,赵申屹
关键字:Spark,关联规则,增量更新,并行计算,FP-tree
DOI:10.3969/j.issn.1673-629X.2018.07.011
查看次数:132

如需要完整文档点击下方 "点击下载文档" 按钮

传统的基于频繁模式增长的并行关联规则算法在处理动态更新的数据集时,需要把更新后的数据集全部压缩到频繁模式树中,消耗了大量时间和存储空间,且没有充分考虑头表分组过程中组间负载量不同的问题。针对在关联规则 的实际挖掘过程中,数据集快速增长所造成的增量更新问题,基于并行频繁模式增长 PFP-tree 算法,结合 Spark 分布式并行处理框架,提出一种改进的并行关联规则增量更新算法。在增量更新过程中,为了减少挖掘时间和存储空间,利用已有挖掘结果对新增数据集构建频繁模式树。通过改进头表分组策略,实现了并行挖掘节点之间的负载均衡。 实验分析表明,相较于传统的关联增量更新算法,该算法是可行的且具备较高的挖掘效率和可扩展性,适用于动态增长的大数据环境。

如需要完整文档点击下方 "点击下载文档" 按钮

一种改进的并行关联规则增量更新算法研究
《一种改进的并行关联规则增量更新算法研究》
完整文档 下载到本地,方便收藏和查阅
文件号:062652
一种改进的并行关联规则增量更新算法研究
点击下载文档
一种改进的并行关联规则增量更新算法研究

点击下载 文件号:062652(点击复制) 公众号(点击复制)

x