当前位置: 首页 > 专利查询>安阳工学院专利>正文

一种基于FpGrowth算法的剪枝策略制造技术

技术编号:19544542 阅读:23 留言:0更新日期:2018-11-24 20:44
FpGrowth算法是不产生候选集的关联规则挖掘算法,具有广泛的实际应用价值。为此对经典FpGrowth算法的FP‑tree的结构和挖掘过程进行了深入分析和研究,分析了FP‑tree单路径和多路径的挖掘方法,提出了一个剪枝策略,在频繁模式挖掘时可以减少部分分支的迭代次数。实验结果验证提出的剪枝策略有效地改进了算法,并提高了FpGrowth算法对数据的处理能力和效率。

A pruning strategy based on FpGrowth algorithm

FpGrowth algorithm is an association rule mining algorithm that does not generate candidate sets, and has a wide range of practical application value. In this paper, the structure and mining process of FP tree of classical FpGrowth algorithm are deeply analyzed and studied, the mining methods of FP tree single path and multi path are analyzed, and a pruning strategy is proposed to reduce the number of iterations of some branches in frequent pattern mining. The experimental results show that the proposed pruning strategy effectively improves the algorithm, and improves the data processing ability and efficiency of FpGrowth algorithm.

【技术实现步骤摘要】
一种基于FpGrowth算法的剪枝策略
本专利技术涉及数据挖掘领域,尤其涉及一种基于FpGrowth算法的剪枝策略。
技术介绍
随着信息技术的迅猛发展,要从日益庞大和复杂的数据中发现有价值的信息和知识,达到为决策服务的目的,己成为非常艰巨的任务。数据挖掘技术在此背景下应运而生。关联规则挖掘是数据挖掘中的一个重要分支,也是目前应用最广的一种数据挖掘类型。数据关联规则的挖掘目的,是发现在大量的数据项之间存在的值得关注的关联或相关关系,典型应用是零售业的购物篮分析。所谓购物篮分析是指对数据进行关联规则研究,有助于发现交易数据库中不同商品之间的联系,找出顾客购买行为的模式,例如,如果面包和牛奶经常被顾客同时购买,则把它们摆放在一起有助于增加两种商品的销售量。为了衡量一条规则的重要程度,关联规则通常采用支持度和可信度作为度量标准。支持度可以表示商品在超市销售中的重要程度,可信度反映了商品之间的关联程度。如果在购买面包的交易中,有60%的交易既购买了面包又购买了牛奶,则称关联规则“面包牛奶”,表示如果购买面包则购买牛奶的可信度为60%。关联规则,表示A与B同时存在的情况下,在事务数据库D中的支持度,可用概率表示;关联规则在事务数据库D中的可信度,是在事务数据库D中的那些包含A的事务中,B也同时出现的概率,即条件概率。一个项集X在事务数据库D中的支持度,是事务数据库D中包含X的事务占事务总数的百分比,即概率P(X)。对于一个项集X,如果其支持度大于或等于预先给定的支持度阈值min_support,则称X为频繁项集或频繁模式。FpGrowth算法的基本思想是利用树结构对事务进行压缩,同时保留了事务中属性之间的关系。这种算法不会产生候选项集,而采用增长频繁集的方法进行数据挖掘。FpGrowth算法的重要步骤是FP-tree的构造过程,需要扫描两次事务集:第一次扫描事务集T,找出频繁1-项集合L_list,并且将L_list按照支持度计数降序排列;第二次扫描事务集T,以“Null”为根节点,基于L_list构建FP-tree。为了方便遍历FP-tree,还需创建项头表。该表中每一行表示一个频繁项,并且有一个指针指向它在FP-tree中对应的节点。具体算法流程如下:(1)创建原始FP-tree。1)扫描事务集合T,找出支持度计数满足条件的项,并将这些项组合成频繁1-项集合L,基于支持度计数将L降序排列得到L_list。2)创建原始FP-tree,并以“Null”为根节点。3)创建项头表。为了方便遍历原始FP-tree,项头表中每一行表示一个频繁项,并且有对应指针指向它在FP-tree中的节点。4)遍历一次事务集合T,将T中所有事务的项次序根据L_list进行调整。为每个调整后项次序的事务创建一个事务分支。如果分支可以共享路径则共享,并且在各个节点上记录共享事务数目。(2)在原始FP-tree上递归地找出所有的频繁项集。1)赋后缀模式a的初始值为根节点Null,即a=Null。在FP-tree上采用递归的方法搜索频繁项集,如果FP-tree只有一个分支,那么分支路径上的节点的一个组合就是一个前缀模式b。剔除分支路径上的不满足最小支持度的节点,剩余的节点值所组成的任何集合b与后缀模式a取并,可获得所有对应的频繁项集。其中bi为一前缀模式,否则增长a,a=a∪{Ei},其中Ei为L_list中的最后一项,即支持度计数的最小项。然后构造后缀模式的条件模式基与条件FP-tree,其中a的条件模式基,指得是FP-tree中以Ei为叶子节点的所有分支。A的条件FP-tree,指得是以a的条件模式基为事务按照步骤1中的方式所创建的新的FP子树。2)在条件FP-tree上采用相同方法递归地搜索频繁项集,后缀模式a此时为{Ei}。3)对每个最大频繁项集,取其所有子集,其中每个子集为一频繁项集。FpGrowth算法主要包括3个模块,FpGrowth模块体现了FpGrowth算法的流程,Insert模块主要完成生成FP-tree的功能,Search模块则完成获得条件模式基以方便下一层递归运算。
技术实现思路
本专利技术的目的是为了解决传统数据关联规则挖掘效率不高的问题,为此对经典FpGrowth算法的FP-tree的结构和挖掘过程进行了深入分析和研究,分析了FP-tree单路径和多路径的挖掘方法,提出了一个剪枝方法,可以减少部分分支的迭代次数。提高了FpGrowth算法对数据的处理能力和效率。本专利技术实施例提供的一种数据关联规则挖掘FP-tree的剪枝方法,包括:通过对FpGrowth算法的挖掘步骤研究,文中提出了一个剪枝方法。如果项集i在某一个路径上是非频繁的,又项集i在FP-tree中存在前缀路径集合A,B并且A⊂B,那么集合B就可以剪掉和短路径集合A合并。因为FP-tree的项集是按照项集的频度排列的,那么从树的结构上来说,频度是从根到叶子依次递减的,如果多路径的项集在某一个路径上的项是非频繁的,并且存在一个路径的前缀完全包含另外路径的项集前缀,那么长路径的项就可以剪掉和短路径合并,这样而来短路径就包含了长路径的频繁模式。本专利技术提供的数据关联规则挖掘实现方法中,在对频繁模式树挖掘过程采用了剪枝策略,减少了数据挖掘的迭代次数,提高了处理效率。本专利技术可用于数据挖掘的关联规则提取中;适用于数据处理在商业、企业、政府部门及科学研究等领域中;也适用于其他需要提取数据的关联性的各种场合。本专利技术的其他优点、目标,和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。附图说明图1为表一数据集建立的FP-tree结构示意图。图2为由图1建立的FP-tree进行剪枝的结构示意图。图3为本专利技术实施提供的数据关联规则挖掘实现方法的步骤流程图。具体实施方式下面结合附图,对本专利技术实施例提供的数据关联规则挖掘实现方法及系统进行详细阐述。参见图1-2,为本专利技术实施例提供的剪枝方法,包括如下步骤:如果项集i在某一个路径上是非频繁的,又项集i在FP-tree中存在前缀路径集合A,B并且A⊂B,那么集合B就可以剪掉和短路径集合A合并。对于多路径的项集来说,有的项集存在某个路径上的支持度小于给定的阈值,因此可以采用上述的剪枝策略进行剪枝。剪枝后如果是单路径的就可以归为单路径的情况下去考虑。改进的方法相对于原始的算法来说在挖掘的过程中采用一个优化,这样可以减少项集挖掘的递归次数。表1下面用表1事务数据集D来说明剪枝方法的过程。假如最小支持度为2,在建立图1的FP-tree后,可以得到该FP-tree对应的HeaderTable的信息,通过用HeaderTable中节点链的信息,查找各个项的各个节点前缀路径。从图1可以看出,I5项的一个前缀路径是A={I2,I1},I5项的另外一个前缀路径是B={I2,I1,I3},A是B的真子集,满足上面提出的剪枝方法,所以剪枝I5后的FP-tree如图2所示,这样I5就从原来的多路径变为单路径,直接进行频繁项的挖掘,减少了挖掘的递归次数。参见图3,为本发本文档来自技高网
...

【技术保护点】
1.一种基于FpGrowth的剪枝策略挖掘算法,包括以下步骤:(1)统计项集出现的频率,找出所有的频繁项集;(2)对每个频繁项,构建它的条件模式基,然后构建它的条件FP‑tree;(3)对每个新创建的条件FP‑tree重复上述过程;(4)直至结果FP‑tree为空,或者它仅包含一个单一路径,该路径将生成其所有的子路径的组合,每个组合都是一个频繁模式。

【技术特征摘要】
1.一种基于FpGrowth的剪枝策略挖掘算法,包括以下步骤:(1)统计项集出现的频率,找出所有的频繁项集;(2)对每个频繁项,构建它的条件模式基,然后构建它的条件FP-tree;(3)对每个新创建的条件FP-tree重复上述过程;(4)直至结果FP-tree为空,或者它仅包含一个单一路径,该路径将生成其所有的子路径的组合,每个组合都是一个频繁模式。2.如权利要求1所述的基于FpGrowth的剪枝策...

【专利技术属性】
技术研发人员:王伟李源储泽楠吴朝霞刘海
申请(专利权)人:安阳工学院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1