一种高效挖掘关联规则中频繁项集的方法技术

技术编号:14339663 阅读:64 留言:0更新日期:2017-01-04 12:12
本发明专利技术提供一种高效挖掘关联规则中频繁项集的方法,属于数据挖掘技术领域,本发明专利技术通过支持度矩阵表示数据库中所有一项集和二项集的支持度,减轻内存负担,减少扫描数据库次数,通过生成二项集支持度矩阵避免了产生无效的二项集,解决了二项集瓶颈的问题。同时利用矩阵的优势对连接和剪枝步做了改进,提高了挖掘频繁项的效率。

【技术实现步骤摘要】

本专利技术涉及数据挖掘技术,尤其涉及一种高效挖掘关联规则中频繁项集的方法
技术介绍
随着计算机的普及应用和计算机网络的飞速发展,在过去若干年里,无论是商业企业、科研机构或者政府部门,各个领域都积累了海量的并以不同形式存储的数据。面对如此多的数据,人们不再满足于日常的事务处理,而是更加关注能否从形式不同的,分散的,纷繁复杂的数据环境中得到有用的决策信息,从而可以做出正确的分析和决策,广泛的应用到商业、网络安全等领域。关联分析是数据挖掘的一项重要研究内容。其主要任务是从事务数据库中获取频繁项,然后再由这些频繁项生成相应的关联规则。用以发现隐藏在大量数据中的有价值信息。如今,关联分析在商业、电信、农业、医学、教育、金融等领域有着广泛的应用。Apriori方法是关联分析的一个最为经典的方法,该方法首先通过最小支持度来获取事务数据库中所有的频繁项,然后再通过最小置信度来挖掘出关联规则。其中,频繁项的获取是关联规则挖掘中的关键,其计算复杂度决定了整个挖掘方法的时间复杂度,在Apriori方法中,这个过程需要频繁的扫描数据库,因此耗费了大量的时间。
技术实现思路
为了解决以上问题,本专利技术提出了一种高效挖掘关联规则中频繁项集的方法。一种高效挖掘关联规则中频繁项集的方法:(1)扫描数据库,构造二项集的支持度矩阵。分别以项目集合I中的各个项作为矩阵的行标和列标,用Iik表示项二项集{Ii,Ik
一种高效挖掘关联规则中频繁项集的方法

【技术保护点】
一种高效挖掘关联规则中频繁项集的方法,其特征在于,(1)扫描数据库,构造二项集的支持度矩阵;分别以项目集合I中的各个项作为矩阵的行标和列标,用Iik表示项二项集{Ii,Ik}(i≤k)在事务数据库D中出现的次数,此矩阵为对称矩阵;(2)逐行扫描矩阵,找出该行中不小于最小支持度计数的元素Iij,到j行搜索该行中不小于最小支持度计数的元素Ijk,再定位到矩阵Iik中,若Iik不小于最小支持度计数,则连接生成候选三项集{Ii,Ij,Ik};(3)由Ck生成候选k+1项集表Ck+1(k≥3),由于生成的候选k项集表Ck是按字典顺序排列的,对于每个候选k项集X,从X在Ck之后的位置中查找以X后k‑1个项开始的其他候选k项集,若找到这样一个候选k项集Y,则把X的第一个项Ir和Y的最后一个项Is的标号连接形成矩阵坐标[r,s],到矩阵M中查找这个坐标上的值是否大于最小支持度计数,如果大于或等于,则生成候选k+1项集,如果不大于,则不予连接,继续查找下一个,直到Ck中的最后一个k项集,至此候选k+1项集表构造结束;(4)第二次扫描数据库,因在生成支持度矩阵时,已经产生了频繁二项集,所以这里只对生成的候选k项集表Ck(k≥3) 中的每个k项集进行计数,并对其进行筛选,最后形成频繁k项集。...

【技术特征摘要】
1.一种高效挖掘关联规则中频繁项集的方法,其特征在于,(1)扫描数据库,构造二项集的支持度矩阵;分别以项目集合I中的各个项作为矩阵的行标和列标,用Iik表示项二项集{Ii,Ik}(i≤k)在事务数据库D中出现的次数,此矩阵为对称矩阵;(2)逐行扫描矩阵,找出该行中不小于最小支持度计数的元素Iij,到j行搜索该行中不小于最小支持度计数的元素Ijk,再定位到矩阵Iik中,若Iik不小于最小支持度计数,则连接生成候选三项集{Ii,Ij,Ik};(3)由Ck生成候选k+1项集表Ck+1(k≥3),由于生成的候选k项集表Ck是按字典顺序排列的,对于每个候选k项集X,从X在Ck之后的位置中查找以X后k-1个项开始的其他候选k项集,若找到这样一个候选k项集Y,则把X的第一个项Ir和Y的最后一个项Is的标号连接形成矩阵坐标[r,s],到矩阵M中查找这个坐标上的值是否大于最小支持度计数,如果大于或等于,则生成候选k+1项集,如果不大于,则不予连接,继续查找下一个,直到...

【专利技术属性】
技术研发人员:王洪添刘丽娜
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1