一种基于相关兴趣度的关联规则挖掘方法技术

技术编号:16587492 阅读:56 留言:0更新日期:2017-11-18 15:05
本发明专利技术公开了一种基于相关兴趣度的关联规则挖掘方法,该方法首先从事务数据库TID中得到1‑频繁项集,产生更高阶的候选频繁模式;接着对候选的频繁模式进行支持度阈值判断去掉非频繁项目集,然后由关联兴趣度量All‑confidence过滤掉可疑交叉支持模式,由相关兴趣度量Related‑confidence消除包含负相关的可疑关联规则,将满足上述条件的模式加入Ck候选集作为下一迭代的基础,并产生候选的前后项集的关联规则;最后通过项目集相关性度量Q(R),过滤掉前、后项目集是负相关的虚假关联规则,返回较为可靠的关联规则集GSk。本发明专利技术确实有效的促使后项集X‑A的发生,确实有效的消除了可疑模式和前后项集负相关的关联规则,不仅有很好的剪枝效果而且提高了关联规则的质量,具有较强的实用价值。

An association rule mining method based on relative interestingness

The invention discloses a method of mining association rules based on the degree of interest correlation, the method first gets 1 frequent itemsets from transactional databases in TID, generate frequent patterns in higher order; then the support threshold judgment to remove non frequent item sets of candidate frequent patterns, and then by the related interest measure All confidence to filter out suspicious cross support mode, Related confidence by the relevant interest measure to eliminate the association rules containing suspicious negative, will meet the conditions of the model into Ck candidate set used as the basis for the next iteration, and before and after the set of candidate association rules; finally set the correlation metric Q (R). Filter out before and after the project is false negative set the related rules, association rules set GSk returns more reliable. The present invention is effective to promote the occurrence of A X set back, effectively eliminate the suspicious pattern and before and after the set of negative association rules, not only has good pruning effect and improve the quality of association rules, has a strong practical value.

【技术实现步骤摘要】
一种基于相关兴趣度的关联规则挖掘方法
本专利技术属于数据处理领域,尤其涉及一种基于相关兴趣度的关联规则挖掘方法。
技术介绍
关联规则技术是一种经典的数据挖掘方法,它善于从缺乏先验信息的海量数据中发现隐含的有意义的知识,预测未来趋势及行为,做出前瞻性的基于知识的决策。正是这种优势使得关联规则在分析各行各业数据的研究中被广泛地采用并取得了许多有价值的成果。关联规则自1993年提出以来一直是数据挖掘领域中较为活跃的研究分支,其目的就是为了从海量的数据中发现更为可靠的项之间有趣的关联和相关关系,产生有效的并且高质量的关联规则并用于各行业生产决策。传统基于支持度-置信度框架的关联规则挖掘已经得到了广泛而深入的研究,这种方法是把支持度和置信度作为标准来度量人们感兴趣的规则,虽然它可以使用最小支持度和置信度阀值排除大量无趣的规则,但仍然容易产生大量无意义的、冗余的,甚至是误导的关联规则。如果人们为了避免丢失一些有意义的规则而把支持度阈值设置得足够低,那么将可能得到一些对用户没有实际应用价值的规则,甚至包含负相关或者包含交叉支持模式的可疑关联规则,并且有可能影响计算效率;如果把支持度阈值设置得太高,那么有可能丢失一些有价值的规则。为了克服关联规则挖掘中存在的缺点,提高关联规则挖掘效率,国内外的研究学者引入兴趣度度量来补充支持度-置信度框架,并取得了一定的成果。兴趣度是关联规则挖掘中的一个重要分支,关联规则的兴趣度习惯上分为主观兴趣度和客观兴趣度两大类。主观兴趣度属于用户驱动反映用户对关联规则的主观关注程度,与用户的先验知识、规则的期望等有关;客观兴趣度则是由规则或模式的自身结构和数据库中的数据对象决定。目前,对关联规则兴趣度的研究主要还是停留在简单的使用客观性兴趣度,这远远的不够它很难考虑模式和规则的所有方向。同时衡量兴趣度的模型多种多样,兴趣度的定义方法各不相同,在选取合适的兴趣度度量来提高挖掘效率和获取高质量的规则仍然存在着困难。
技术实现思路
本专利技术针对现有技术的不足,提出一种基于相关兴趣度的关联规则挖掘方法,通过全置信度all-confidence,相关兴趣度Related-confidence和项集相关性度量进行模式剪枝消除在传统关联规则挖掘中存在的可疑模式或关联规则,一定程度的去改善一般性关联规则在挖掘前、后项集不对称情况时的不足,进一步提高所生成关联规则的质量。本专利技术的技术方案如下:一种基于相关兴趣度的关联规则挖掘方法,具体包含如下步骤:步骤1,输入事务数据库TID,最小支持度阈值ψ,最小All-confidence阈值η,最小Related-confidence阈值μ,最小项集相关性度量阈值λ;步骤2,计算事务数据库TID的每个项目ii的支持度sup(ii),得到1-频繁项集L1;步骤3,由Lk-1与Lk-1相连接产生候选的k-频繁模式Mk,即Mk←Lk-1*Lk-1,其中k为大于等于2的常数,且步骤4,计算每个属于候选的k-频繁模式Mk的模式x的支持度,去除不满足支持度关系式sup(x)≥ψ的模式;步骤5,计算每个属于候选的k-频繁模式Mk并且满足步骤4的模式x的关联度量值,去除不满足关联兴趣度All-confidence关系式α(x)≥η的模式;步骤6,计算每个属于候选的k-频繁模式Mk并且满足步骤5的模式x的相关度量值,去除不满足相关兴趣度Related-confidence关系式L(x)≥μ的模式;步骤7,构造一个空的存储区域Ck,分别将满足步骤4、步骤5和步骤6的获选模式x加入存储区域Ck,将存储区域Ck作为步骤8生成候选关联规则的数据集,进行赋值操作即Lk←Ck,将Lk作为下一阶迭代的基础即Mk+1←Lk*Lk;步骤8,从满足关联兴趣度和相关兴趣度的k-频繁项集的Ck中取出模式x,生成获选的关联规则n,即通过项目集相关性度量Q(R)计算项集相关性度量值,过滤掉不满足关系式Q(n)<λ的虚假关联规则,其中,X是模式x的前项集;步骤9,将从步骤8得到的有效关联规则n加入关联规则集GSk作为最后返回的结果,判断Lk是否为空,若为空,则输出关联规则GSk,反之则返回步骤3继续执行。作为本专利技术基于相关兴趣度的关联规则挖掘方法的进一步优选方案,在步骤4中,获取模式x支持度的具体方法如下:其中,sup(x)为模式x的支持度,D为可变长度事务集,且D={T1,T2,…Tm},T为事务,其中m为正整数。作为本专利技术基于相关兴趣度的关联规则挖掘方法的进一步优选方案,在步骤5中,获取模式x关联兴趣度All-confidence的方法:其中,α(X)为模式x关联兴趣度,d为事务,i为包含l事务的数量,X为模式x,p(X)为模式x的幂集,l为模式x的子集。作为本专利技术基于相关兴趣度的关联规则挖掘方法的进一步优选方案,在步骤6中,获取模式x相关兴趣度Related-confidence的方法:其中,L(X)为模式x相关兴趣度,p(li,lj)为项li,lj在事务集中出现的概率,p(li)为项li在事务集中出现的概率,p(lj)为项lj在事务集中出现的概率。作为本专利技术基于相关兴趣度的关联规则挖掘方法的进一步优选方案,在步骤8中,获取模式x项集相关性度量的方法:其中,Q(A,X-A)为模式x项集相关性度量,A为模式x的前项集,Q(R)为模式x项集相关性度,P(X)为模式x在事务集中出现的概率,P(A)为模式x的前项集A在事务集中出现的概率,P(X-A)为模式x的后项集X-A在事务集中出现的概率。本专利技术与现有的技术相比,具有以下优点:1、通过全置信度all-confidence和相关兴趣度correlation-confidence的筛选有效的过滤了可疑的交叉支持模式和包含负相关的虚假规则,与传统的支持度一起构成多剪枝效果,提高关联规则的挖掘效率;2、引入项目集相关性度量Q(R),过滤掉前、后项目集是负相关的虚假关联规则,确保规则即使在非对称时前项集A的发生确实有效的促使后项集X-A的发生,提高挖掘出的关联规则的质量。附图说明图1是本专利技术的实现流程图;图2是本专利技术支持度ψ变化执行时间性能比对图;图3是本专利技术支持度ψ变化存储空间消耗性能比对图;图4是本专利技术η变化执行时间性能比对图表;图5是本专利技术μ变化执行时间性能比对图表;图6是本专利技术μ变化方法的剪枝效果;图7是本专利技术λ变化执行时间性能比对图表;图8是本专利技术λ变化方法的剪枝效果。具体实施方式本专利技术的具体技术实施步骤如下:一种基于相关兴趣度的关联规则挖掘方法,如图1所示,具体包含如下步骤:步骤1,输入事务数据库TID,最小支持度阈值ψ,最小All-confidence阈值η,最小Related-confidence阈值μ,最小项集相关性度量阈值λ;对输入事务数据库TID进行定义,设定项目集为I={i1,i2,…,im}其中每个ii代表一个项目,可变长度事务集D={T1,T2,…Tm},每个事务Ti是一组大小不等的项目步骤2,(2)对事务数据库TID的每个事务Ti中的项目ii出现的频率进行统计,计算每个项目ii的支持度,去除不满足支持度阈值的项目,得到1-频繁项集L1;步骤3,当时(其中k-1为k-1频繁项目集),由Lk-1与Lk-1相连接产生候选的k-频繁模式Mk(Mk←Lk本文档来自技高网
...
一种基于相关兴趣度的关联规则挖掘方法

【技术保护点】
一种基于相关兴趣度的关联规则挖掘方法,其特征在于:具体包含如下步骤:步骤1,输入事务数据库TID,最小支持度阈值ψ,最小All‑confidence阈值η,最小Related‑confidence阈值μ,最小项集相关性度量阈值λ;步骤2,计算事务数据库TID的每个项目ii的支持度sup(ii),得到1‑频繁项集L1;步骤3,由Lk‑1与Lk‑1相连接产生候选的k‑频繁模式Mk,即Mk←Lk‑1*Lk‑1,其中k为大于等于2的常数,且

【技术特征摘要】
1.一种基于相关兴趣度的关联规则挖掘方法,其特征在于:具体包含如下步骤:步骤1,输入事务数据库TID,最小支持度阈值ψ,最小All-confidence阈值η,最小Related-confidence阈值μ,最小项集相关性度量阈值λ;步骤2,计算事务数据库TID的每个项目ii的支持度sup(ii),得到1-频繁项集L1;步骤3,由Lk-1与Lk-1相连接产生候选的k-频繁模式Mk,即Mk←Lk-1*Lk-1,其中k为大于等于2的常数,且步骤4,计算每个属于候选的k-频繁模式Mk的模式x的支持度,去除不满足支持度关系式sup(x)≥ψ的模式;步骤5,计算每个属于候选的k-频繁模式Mk并且满足步骤4的模式x的关联度量值,去除不满足关联兴趣度All-confidence关系式α(x)≥η的模式;步骤6,计算每个属于候选的k-频繁模式Mk并且满足步骤5的模式x的相关度量值,去除不满足相关兴趣度Related-confidence关系式L(x)≥μ的模式;步骤7,构造一个空的存储区域Ck,分别将满足步骤4、步骤5和步骤6的获选模式x加入存储区域Ck,将存储区域Ck作为步骤8生成候选关联规则的数据集,进行赋值操作即Lk←Ck,将Lk作为下一阶迭代的基础即Mk+1←Lk*Lk;步骤8,从满足关联兴趣度和相关兴趣度的k-频繁项集的Ck中取出模式x,生成获选的关联规则n,即通过项目集相关性度量Q(R)计算项集相关性度量值,过滤掉不满足关系式Q(n)<λ的虚假关联规则,其中,X是模式x的前项集;步骤9,将从步骤8得到的有效关联规则n加入关联规则集GSk作为最后返回的结果,判断Lk是否为空,若为空,则输出关联规则GSk,反之则返回步骤3继续执行。2.根据权利要求1所述的基于相关兴趣度的关联规则挖掘方法,其特征在于,在步骤4中,获取...

【专利技术属性】
技术研发人员:王诚章永祺
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1