低资源条件下的关联规则挖掘方法、系统、装置制造方法及图纸

技术编号:24707962 阅读:53 留言:0更新日期:2020-06-30 23:58
本发明专利技术属于数据挖掘领域,具体涉及一种低资源条件下的关联规则挖掘方法、系统、装置,旨在解决现有的关联规则挖掘方法无法在低内存下完整的低频关联规则的挖掘的问题。本系统方法包括:获取待挖掘关联规则的数据集,对数据集各事务中的项进行数字化编码;获取高频频繁项集和高频关联规则;构建第一低频频繁项集和第二低频频繁项集;基于第一低频频繁项集、第二低频频繁项集,通过setdiff函数得到第三低频频繁项集,并根据第三低频频繁项集获取低频关联规则;输出高频关联规则、低频关联规则。本发明专利技术能够在低内存条件下挖掘完整的低频关联规则。

【技术实现步骤摘要】
低资源条件下的关联规则挖掘方法、系统、装置
本专利技术属于数据挖掘领域,具体涉及一种低资源条件下的关联规则挖掘方法、系统、装置。
技术介绍
在一些情况下,比如个人健康数据中,我们需要关注感兴趣的数据之间的关系,比如一些症状表现和疾病是如何关联的。为了满足这样的需求我们对数据集进行关联规则挖掘。关联规则挖掘是一种重要的数据挖掘算法,该算法可以在数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。常用的两种关联规则算法为A-priori算法和FPGrowth算法。A-priori算法使用生成候选对的方法需多次扫描数据集,每次生成的候选对需要占用大量内存,特别是在支持度阈值低的情况下。FPGrowth算法使用树形数据结构替代多次数据集扫描,算法的效率更高内存占用更小。但FPGrowth算法同样存在因低支持度阈值引发的内存瓶颈。当最小支持度为一个非常低的阈值时,会引发排列组合爆炸(combinatorialexplosion),带来算法时间和空间复杂度的快速增加。在这样的阈值下,生成的频繁集数量巨大,不仅需要占用大量本文档来自技高网...

【技术保护点】
1.一种低资源条件下的关联规则挖掘方法,其特征在于,该方法包括:/n步骤S100,获取待挖掘关联规则的数据集,作为第一数据集,对所述第一数据集各事务中的项进行数字化编码;/n步骤S200,基于数字化编码的项、预设的高频最小支持度,通过FPGrowth算法得到高频频繁项集;获取所述高频频繁项集中各项集构成的关联规则的置信度,若所述置信度大于预设的高频最小置信度阈值,则将其对应的关联规则作为高频关联规则;/n步骤S300,对每一个数字化编码的项,在所述第一数据集中选取包含其的事务并在选取的各事务中删除其本身,构建第二数据集,并在所述第一数据集中选取不包含其的事务构建第三数据集;根据所述第二数据集中...

【技术特征摘要】
1.一种低资源条件下的关联规则挖掘方法,其特征在于,该方法包括:
步骤S100,获取待挖掘关联规则的数据集,作为第一数据集,对所述第一数据集各事务中的项进行数字化编码;
步骤S200,基于数字化编码的项、预设的高频最小支持度,通过FPGrowth算法得到高频频繁项集;获取所述高频频繁项集中各项集构成的关联规则的置信度,若所述置信度大于预设的高频最小置信度阈值,则将其对应的关联规则作为高频关联规则;
步骤S300,对每一个数字化编码的项,在所述第一数据集中选取包含其的事务并在选取的各事务中删除其本身,构建第二数据集,并在所述第一数据集中选取不包含其的事务构建第三数据集;根据所述第二数据集中的项、预设的低频最小支持度,通过FPGrowth算法得到第一低频频繁项集;将所述预设的低频最小支持度与预设的边界系数的积作为最小支持度,并结合所述第三数据集中的项,通过FPGrowth算法得到第二低频频繁项集;
步骤S400,基于所述第一低频频繁项集、所述第二低频频繁项集,通过setdiff函数得到第三低频频繁项集,并计算所述第三低频频繁项集中各项集在所述第三数据集中的出现频率,若该频率小于所述预设的边界系数,则将其对应的各项集构成的关联规则作为低频关联规则;
步骤S500,将所述高频关联规则、所述低频关联规则作为挖掘到的关联规则进行输出。


2.根据权利要求1所述的低资源条件下的关联规则挖掘方法,其特征在于,所述预设的高频最小支持度大于所述预设的低频最小支持度。


3.根据权利要求1所述的低资源条件下的关联规则挖掘方法,其特征在于,所述预设的高频最小置信度阈值其获取方法为:
获取待挖掘关联规则中预设的后继项在所述第一数据集中出现的概率,将该概率与预设的最小提升度的积作为第一置信度;
将所述第一置信度与所述预设的最小置信度中的较小者作为预设的高频最小置信度阈值。


4.根据权利要求3所述的低资源条件下的关联规则挖掘方法,其特征在于,所述预设的边界系数其计算方法为:



其中,confMin为第二置信度与预设的最小置信度中的较小者;所述第二置信度为预设的最小提升度与所述第一数据集中各项对应支持度的积。


5.根据权利要求2所述的低资源条件下的关联规则挖掘方法,其特征在于,步骤S400“计算所述第三低频频繁项...

【专利技术属性】
技术研发人员:罗冠郑安妮胡卫明
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1