基于改进蚁狮优化算法和频繁模式增长的关联规则提取方法技术

技术编号:24091123 阅读:132 留言:0更新日期:2020-05-09 08:07
本发明专利技术公开了一种基于改进蚁狮优化算法和频繁模式增长的关联规则提取方法,将频繁模式树上路径的遍历转化为借助于蚁狮优化算法结合项头表在频繁模式树上路径的搜索,对搜索到的路径即关联规则利用适应度函数进行评估并保存,挖掘出最佳关联规则。本发明专利技术不同于频繁模式增长算法的完全遍历,而是借助于蚁狮优化算法从启发式角度进行智能搜索,有效缩短了关联规则挖掘所耗时间,相比于传统关联规则挖掘算法,该发明专利技术更能适应海量数据的关联规则挖掘。

Association rule extraction based on improved ant lion optimization algorithm and frequent pattern growth

【技术实现步骤摘要】
基于改进蚁狮优化算法和频繁模式增长的关联规则提取方法
本专利技术属于数据挖掘
,涉及一种关联规则提取方法,具体涉及一种基于改进蚁狮优化算法和频繁模式增长的关联规则挖掘方法。
技术介绍
大数据时代,我们善于从大量的数据中提取出有用的信息,数据挖掘近年来成为一个热门领域,已经讨论了许多研究和应用以更有效地应用相关技术。数据挖掘最重要的应用之一是发现关联规则,由R.Agrawal,T。Imielinski和A.Swami引入。关联规则提取的主要目标是发现数据项集之间内涵的关联或依赖关系,即从大量积累的数据中找出隐藏的数据模式或者知识,满足给定的最小支持和置信度的相关项。为了解决这个问题,提出了两种著名的算法:Apriori算法和FP-Growth算法。然而,随着信息技术的发展,即使FPGrowth算法只扫描数据集两次,它仍然无法有效地处理大数据集。数据挖掘中最为关键的是挖掘效率,但是Apriori算法在大数据量上挖掘十分耗时,需要多次扫描数据库。因此,几乎所有的关联分析挖掘都集中在算法改进上,这对关联分析挖掘具有重大的推动作用。人们针对Apri本文档来自技高网...

【技术保护点】
1.一种基于改进蚁狮优化算法和频繁模式增长的关联规则提取方法,其特征在于,包括以下步骤:/n步骤1:输入事务数据集,从文件中读取出事务数据,每项事务按字符串的形式逐条保存于事务列表结构中;/n步骤2:针对读取到的事务数据集,利用频繁模式增长算法构建该事务数据集的频繁模式树;/n步骤3:利用已构建好的频繁模式树创建对应的头表;/n步骤4:遍历已创建好的头表,对头表中的每一项,在频繁模式树中搜索利用蚁狮算法生成的该项条件模式基子集,计算该项条件模式基子集与该项构成的关联规则的适应度;/n其中,遍历频繁模式树找到该项的条件模式基,然后以二进制随机表示条件模式基中的每一项是否被选中,选中则为1,未选中...

【技术特征摘要】
1.一种基于改进蚁狮优化算法和频繁模式增长的关联规则提取方法,其特征在于,包括以下步骤:
步骤1:输入事务数据集,从文件中读取出事务数据,每项事务按字符串的形式逐条保存于事务列表结构中;
步骤2:针对读取到的事务数据集,利用频繁模式增长算法构建该事务数据集的频繁模式树;
步骤3:利用已构建好的频繁模式树创建对应的头表;
步骤4:遍历已创建好的头表,对头表中的每一项,在频繁模式树中搜索利用蚁狮算法生成的该项条件模式基子集,计算该项条件模式基子集与该项构成的关联规则的适应度;
其中,遍历频繁模式树找到该项的条件模式基,然后以二进制随机表示条件模式基中的每一项是否被选中,选中则为1,未选中则为0;将条件模式基中所有被选中的项组合在一起作为当前关联规则的左部,即该项条件模式基子集;
其中,适应度评价函数为:



其中,support和confidence分别为当前选定关联规则计算出的支持度和置信度,minsup和minconf为预设的最小支持度和最小置信度;






其中,lrsum为左右部同时出现的事务数,sum为总事务数,supnum为左部的支持数,然后将关联规则及其对应的适应度保存至列表中;
适应度评估完以后保存关联规则,将搜索到的关联规则适应度大于1的规则进行保存,即置信度与支持度之和大于最小置信度与最小支持度之和,只保留不重复的关联规则;
步骤5:输出所有搜索到的关联规则。


2.根据权利要求1所述的基于改进蚁狮优化算法和频繁模式增长的关联规则提取方法,其特征在于:步骤1中,每项事务按字符串的形式逐条保存于事务列表结构中,每行表示一个事务,按相同格式存放。


3.根据权利要求1所述的基于改进蚁狮优化算法和频繁模式增长的关联规则提取方法,其特征在于:步骤2中,根据最小支持度对事务列表进行遍历生成该事务数据集的频繁模式树。


4.根据权利要求1-3任意一项所述的基于改进蚁狮优化算法和频繁模式增长的关联规则提取方法,其特征在于:步骤4中,利用蚁狮算法生成该项条件模式基子集,具体实现包括以下子步骤:
步骤4.1:读入事务数据,利用频繁模式增长算法生成频繁模式树,将频繁模式树和...

【专利技术属性】
技术研发人员:叶志伟董达伟曹羽
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1