The invention discloses a method of mining association rules based on the degree of interest correlation, the method first gets 1 frequent itemsets from transactional databases in TID, generate frequent patterns in higher order; then the support threshold judgment to remove non frequent item sets of candidate frequent patterns, and then by the related interest measure All confidence to filter out suspicious cross support mode, Related confidence by the relevant interest measure to eliminate the association rules containing suspicious negative, will meet the conditions of the model into Ck candidate set used as the basis for the next iteration, and before and after the set of candidate association rules; finally set the correlation metric Q (R). Filter out before and after the project is false negative set the related rules, association rules set GSk returns more reliable. The present invention is effective to promote the occurrence of A X set back, effectively eliminate the suspicious pattern and before and after the set of negative association rules, not only has good pruning effect and improve the quality of association rules, has a strong practical value.
【技术实现步骤摘要】
一种基于相关兴趣度的关联规则挖掘方法
本专利技术属于数据处理领域,尤其涉及一种基于相关兴趣度的关联规则挖掘方法。
技术介绍
关联规则技术是一种经典的数据挖掘方法,它善于从缺乏先验信息的海量数据中发现隐含的有意义的知识,预测未来趋势及行为,做出前瞻性的基于知识的决策。正是这种优势使得关联规则在分析各行各业数据的研究中被广泛地采用并取得了许多有价值的成果。关联规则自1993年提出以来一直是数据挖掘领域中较为活跃的研究分支,其目的就是为了从海量的数据中发现更为可靠的项之间有趣的关联和相关关系,产生有效的并且高质量的关联规则并用于各行业生产决策。传统基于支持度-置信度框架的关联规则挖掘已经得到了广泛而深入的研究,这种方法是把支持度和置信度作为标准来度量人们感兴趣的规则,虽然它可以使用最小支持度和置信度阀值排除大量无趣的规则,但仍然容易产生大量无意义的、冗余的,甚至是误导的关联规则。如果人们为了避免丢失一些有意义的规则而把支持度阈值设置得足够低,那么将可能得到一些对用户没有实际应用价值的规则,甚至包含负相关或者包含交叉支持模式的可疑关联规则,并且有可能影响计算效率;如果把支持度阈值设置得太高,那么有可能丢失一些有价值的规则。为了克服关联规则挖掘中存在的缺点,提高关联规则挖掘效率,国内外的研究学者引入兴趣度度量来补充支持度-置信度框架,并取得了一定的成果。兴趣度是关联规则挖掘中的一个重要分支,关联规则的兴趣度习惯上分为主观兴趣度和客观兴趣度两大类。主观兴趣度属于用户驱动反映用户对关联规则的主观关注程度,与用户的先验知识、规则的期望等有关;客观兴趣度则是由规则或模式的自 ...
【技术保护点】
一种基于相关兴趣度的关联规则挖掘方法,其特征在于:具体包含如下步骤:步骤1,输入事务数据库TID,最小支持度阈值ψ,最小All‑confidence阈值η,最小Related‑confidence阈值μ,最小项集相关性度量阈值λ;步骤2,计算事务数据库TID的每个项目ii的支持度sup(ii),得到1‑频繁项集L1;步骤3,由Lk‑1与Lk‑1相连接产生候选的k‑频繁模式Mk,即Mk←Lk‑1*Lk‑1,其中k为大于等于2的常数,且
【技术特征摘要】
1.一种基于相关兴趣度的关联规则挖掘方法,其特征在于:具体包含如下步骤:步骤1,输入事务数据库TID,最小支持度阈值ψ,最小All-confidence阈值η,最小Related-confidence阈值μ,最小项集相关性度量阈值λ;步骤2,计算事务数据库TID的每个项目ii的支持度sup(ii),得到1-频繁项集L1;步骤3,由Lk-1与Lk-1相连接产生候选的k-频繁模式Mk,即Mk←Lk-1*Lk-1,其中k为大于等于2的常数,且步骤4,计算每个属于候选的k-频繁模式Mk的模式x的支持度,去除不满足支持度关系式sup(x)≥ψ的模式;步骤5,计算每个属于候选的k-频繁模式Mk并且满足步骤4的模式x的关联度量值,去除不满足关联兴趣度All-confidence关系式α(x)≥η的模式;步骤6,计算每个属于候选的k-频繁模式Mk并且满足步骤5的模式x的相关度量值,去除不满足相关兴趣度Related-confidence关系式L(x)≥μ的模式;步骤7,构造一个空的存储区域Ck,分别将满足步骤4、步骤5和步骤6的获选模式x加入存储区域Ck,将存储区域Ck作为步骤8生成候选关联规则的数据集,进行赋值操作即Lk←Ck,将Lk作为下一阶迭代的基础即Mk+1←Lk*Lk;步骤8,从满足关联兴趣度和相关兴趣度的k-频繁项集的Ck中取出模式x,生成获选的关联规则n,即通过项目集相关性度量Q(R)计算项集相关性度量值,过滤掉不满足关系式Q(n)<λ的虚假关联规则,其中,X是模式x的前项集;步骤9,将从步骤8得到的有效关联规则n加入关联规则集GSk作为最后返回的结果,判断Lk是否为空,若为空,则输出关联规则GSk,反之则返回步骤3继续执行。2.根据权利要求1所述的基于相关兴趣度的关联规则挖掘方法,其特征在于,在步骤4中,获取...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。