一种关联规则挖掘方法及其系统技术方案

技术编号:3841235 阅读:287 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种关联规则挖掘方法及其系统。本发明专利技术方法包括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。采用本发明专利技术,可提高关联规则挖掘的处理效率。

【技术实现步骤摘要】

本专利技术涉及通信领域中的数据挖掘技术,尤其涉及一种关联规则挖掘方法及其系 统。
技术介绍
在数据挖掘处理中,关联规则(Association Rule)的数据挖掘目的,是发现在大量的数据项之间存在的值得关注的关联或相关关系,典型应用是零售业的购物篮分析。所 谓购物篮分析是指对数据进行关联规则研究有助于发现交易数据库中不同商品(或不同 项)之间的联系,找出顾客购买行为的模式,例如,如果面包和牛奶经常被顾客同时购买, 则把它们摆放在一起有助于增加两种商品的销售量。为了衡量一条规则的重要程度,关联 规则通常采用支持度(support)和可信度(confidence)作为度量标准。支持度可以表示 商品在超市销售中的重要程度,可信度反映了商品之间的关联程度。如果在购买面包的交 易中,有60%的交易既购买了面包又购买了牛奶,则称关联规则“面包^牛奶”(表示如果 购买面包则购买牛奶)的可信度为60%。关联规则(表示A与B同时存在)在事务数据库D中的支持度,可用概率 P (A U B)表示;关联规则X = 5在事务数据库D中的可信度,是在事务数据库D中的那些包含A的 事务中,B也同时出现的概率,即条件概率P(B|A)。一个项集X在事务数据库D中的支持度,是事务数据库D中包含X的事务count (X) 占事务总数N的百分比,即概率P (X)。对于一个项集X,如果其支持度大于或等于预先给定 的支持度阈值min_Sup,则称X为频繁项集(FI =Frequent Itemset)或频繁模式。现有技术中,关联规则的数据挖掘处理一般包括两部分第一部分找出所有支持度大于等于最小支持度阈值的频繁项集;第二部分由频繁项集生成满足可信度阈值的关联规则。上述第一部分工作是相当费时的,而第二部分工作在第一部分的基础上较容易实 现,因此关联规则挖掘算法的总体性能主要由第一部分工作决定。现有技术中的Apriori算法是一种经典的挖掘布尔关系规则频繁项集的算法。 Apriori算法在进行上述第一部分工作,即,找出频繁项集时,需要反复扫描数据库,当面临 海量数据挖掘时,由于内部存储器容量的限制,数据无法全部加载到内部存储器当中运算, 甚至无法在单机(或单节点)上存储,而且,Apriori算法作为一种串行算法,在一定程度 上限制了挖掘的效率。
技术实现思路
本专利技术实施例提供了一种关联规则挖掘方法及其系统,以解决现有关联规则挖掘 处理效率低的问题。本专利技术实施例提供的关联规则挖掘方法,包括由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数 据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁 计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁 K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。本专利技术实施例提供的关联规则挖掘系统,包括调用模块,用于根据频繁K项集生成K+1项集后,调用多个并行的处理任务,以及 在所述多个并行的处理任务完成后调用汇总任务;与所述多个并行的处理任务一一对应的处理任务执行模块,用于执行处理任务, 包括获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;汇总任务执行模块,用于执行汇总任务,包括对所有处理任务的统计结果进行汇 总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足 支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规 则时输出该关联规则。本专利技术的上述实施例,在用频繁K项集生成频繁K+1项集的过程中,通过多个并行 执行的处理任务获取事务数据集中的部分数据,并分别统计K+1项集在各部分事务数据中 的频繁计数值,然后再进行汇总,得到K+1项集在整个事务数据集中的频繁计数值,从而生 成满足支持度要求的频繁K+1项集以及输出满足可信度要求的关联规则,实现了多个处理 任务并行执行,与现有技术相比,提高了关联规则挖掘的处理效率。附图说明图1为本专利技术实施例中并行关联规则挖掘流程示意图;图2为本专利技术实施例中采用Map/Reduce机制实现并行关联规则挖掘流程的示意 图;图3为本专利技术实施例中的数据挖掘系统结构示意图。 具体实施例方式下面结合附图对本专利技术实施例进行详细描述。在关联规则挖掘过程中,生成频繁项集时,需要用前一个生成的频繁项集生成下 一个频繁项集。参见图1,为本专利技术实施例提供的关联规则挖掘流程的示意图,包括步骤101、生成频繁k项集;步骤102、利用频繁k项集生成满足支持度要求的频繁k+Ι项集,根据该频繁k+1项集判断出有满足可信度要求的关联规则时,输出该关联规则;较佳地,可将处理结果输出 至分布式文件系统保存;步骤103、判断是否满足结束条件,若是,则结束本流程;否则,将k值递增并返回 步骤102进行下一次迭代过程。上述流程的步骤103中,结束条件可以包括达到设定的最大迭代次数,或者输出的关联规则数量达到设定的数量阈值,或者生成的频繁k+1项集为空。上述流程的步骤102中的利用频繁k项集生成满足支持度要求的频繁k+Ι项集的过程,可采用Map/Reduce (映射/简化)机制实现。Map/Reduce是一个分布式处理海量数 据集的编程模式,通过该机制可让程序自动分布到一个由普通机器组成的超大集群上并发 执行。采用Map/Reduce机制实现的生成频繁k+Ι项集的过程可如图2所示。参见图2,为本专利技术实施例中采用Map/Reduce机制实现并行关联规则挖掘流程示 意图。以商品购物篮的应用为例,I :U1,i2,...}为商品集合,D : {Tl,T2,...}为购物单 集合,最小支持度为min_SUp,最小可信度为min_C0nf,如图所示,最大迭代次数为k的关联 规则的流程包括根据集合D生成支持度大于或等于min_SUp的频繁1_项集。该步骤中,可通过扫 描集合D的方式生成满足大于等于支持度阈值min_SUp条件的频繁1-项集。项集是指商 品的集合,是I的子集。1-项集是指商品集合中只包括1种商品(如il),项集的支持度是 指该项集在D中出现的次数除以D中交易总次数(如项集il在D中共出现30次,D中交 易总数为100,则该项集的支持度为30% )。如果支持度阈值是20%,则该1-项集会作为 频繁ι-项集输出。根据频繁1-项集生成2-项集,2-项集是指商品集合中包括2种商品(如i2,i3)。 考虑不需要计算每一种2-项集的可能情况,可做剪枝处理。生成多个并行的Map任务,以及Reduce任务。其中,每个Map任务负责获取集合D 中相应部分的数据,并统计2-项集在该部分数据中的频繁计数值;Reduce任务负责对所有 Map任务的统计结果进行汇总得到2-项集在集合D中的频繁计数值(例如,集合D中的所 有购物单中,il和i2在同一购物单中同时出现的次数即为2-项集中的{il, 2}在集合D 中的频繁计数值),根据2-项集的频繁计数值生成满足支持度要求的频繁2-项集,并根据 频繁2-项集判断出有满足可信度要求的关联规则时输出该关联规则。这些Map任务并行执行,其中,对于每个Map任务,执行根据本文档来自技高网
...

【技术保护点】
一种关联规则挖掘方法,其特征在于,包括:  由频繁K项集生成K+1项集;  执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;  对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。

【技术特征摘要】

【专利技术属性】
技术研发人员:高丹邓超徐萌罗治国周文辉何清曾立郑诗豪沈亚飞陈磊
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1