The invention discloses a method, system and device for parallel Spark based on Apriori method, including access to the database, according to the transaction database to generate candidate sets and frequent sets; pruning operation will be distributed to the set of candidate sets and frequent cluster merging and configurable; according to the merge operation and the pruning operation results generated to meet frequent set minimum support. The system includes the pre acquisition module, the processing module and the generating module. The device includes memory and processor. The invention improves the generation speed and efficiency of the candidate set by distributing frequent sets to the cluster to merge operations, and meanwhile, by adopting the configurable pruning operation, the invention improves the speed of frequent set generation and reduces the network cost. As a Apriori based parallel method, system and device based on Spark, the invention can be widely used in the field of data mining.
【技术实现步骤摘要】
一种基于Spark的Apriori并行化方法、系统及装置
本专利技术涉及数据挖掘领域,尤其是一种基于Spark的Apriori并行化方法、系统及装置。
技术介绍
现有基于Spark计算框架的Apriori算法并行化方案有YAFIM算法和R-Apriori算法。其中,YAFIM(YetAnotherFrequentItemsetMiningAlgorithm)算法是指将关联算法Apriori通过Spark计算框架进行并行化操作,并利用哈希树进行候选集的筛选工作,生成频繁集,该算法在合并步骤上通过原有本地生成的方法进行计算,速度慢且效率低;在剪枝步骤上,对事务数据库进行广播,利用了哈希树进行候选集筛选并输出频繁集,生成频繁集的速度慢。R-Apriori算法则针对YAFIM算法进行了优化,与YAFIM算法的不同之处在于利用布隆过滤器数据结构代替哈希树,提升生成频繁集的速度,但是这种生成频繁集的方式单一、不够灵活,在面对不同维度的频繁集时,网络开销增大、效率很低。
技术实现思路
为解决上述技术问题,本专利技术的目的在于:提供一种快速、高效、灵活而且网络开销小的基于Spark的 ...
【技术保护点】
一种基于Spark的Apriori并行化方法,其特征在于,包括以下步骤:获取事务数据库,根据事务数据库生成候选集和频繁集;将候选集和频繁集分发至集群进行合并操作以及可配置的剪枝操作;根据合并操作和剪枝操作的结果,生成满足最小支持度的频繁集。
【技术特征摘要】
1.一种基于Spark的Apriori并行化方法,其特征在于,包括以下步骤:获取事务数据库,根据事务数据库生成候选集和频繁集;将候选集和频繁集分发至集群进行合并操作以及可配置的剪枝操作;根据合并操作和剪枝操作的结果,生成满足最小支持度的频繁集。2.根据权利要求1所述的一种基于Spark的Apriori并行化方法,其特征在于:所述获取事务数据库,根据事务数据库生成候选集和频繁集这一步骤,包括以下步骤:获取事务数据库,将事务数据库加载至集群的各个计算节点;根据事务数据库,生成候选集和频繁集。3.根据权利要求1所述的一种基于Spark的Apriori并行化方法,其特征在于:所述将候选集和频繁集分发至集群进行合并操作这一步骤,包括以下步骤:将频繁集分发至集群的各个计算节点,得到相应的频繁子集;对各个计算节点中的频繁子集进行分块,得到相应的数据块;采用笛卡尔乘积算子对数据块进行合并操作,生成高维候选集。4.根据权利要求1所述的一种基于Spark的Apriori并行化方法,其特征在于:所述将候选集和频繁集分发至集群进行可配置的剪枝操作这一步骤,包括以下步骤:判断候选集大小是否小于事务数据库大小,若是,则将候选集作为广播变量并将事务数据库作为缓存数据;反之,则将事务数据库作为广播变量并将候选集作为缓存数据;根据广播变量和缓存数据,从低维向高维生成频繁集。5.根据权利要求4所述的一种基于Spark的Apriori并行化方法,其特征在于:所述根据广播变量和缓存数据,从低维向高维生成频繁集这一步骤,包括以下步骤:将缓存数据分布式缓存至各个计算节点;将广播变量分发至各个计算节点中的数据块;根据各个数据块中的广播变量与缓存数据的相对大小,计算各个数据块中候选集的支持度;根据计算出的各个数据块的支持度与设定的最小支持度的相对大小,从低维向高维生成频繁集。6.根据权利要求5所述的一种基...
【专利技术属性】
技术研发人员:赵淦森,张海明,王欣明,庄序填,林成创,蔡斯凯,李振宇,李胜龙,唐华,张奇支,
申请(专利权)人:华南师范大学,广东蔚海数问大数据科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。