一种基于关联规则的数据挖掘技术制造技术

技术编号:18553652 阅读:53 留言:0更新日期:2018-07-28 10:47
本发明专利技术公开了一种关联规则的数据挖掘技术,获取Herpink平台用户信息,提高数据挖掘的速度和时间的节省,有效建立给定数据集中各项集之间的关联规则,提出了一种0‑1矩阵关联规则数据挖掘算法。算法将事务数据库转化成M×N的矩阵,构造一个矩阵关联图表示频繁1‑项目集中每两个项目之间的关联关系,通过遍历构造的关联矩阵有效地缩减事务数据库的大小,产生所有的频繁项集,利用模拟实验结果证明了所提算法可行性及有效性。

【技术实现步骤摘要】
一种基于关联规则的数据挖掘技术
本专利技术为提高挖掘大项目集的速度,有效建立给定数据集中各项集之间的关联规则,提出了一种0-1矩阵关联规则数据挖掘算法.算法将事务数据库转化成M×N的矩阵,构造一个矩阵关联图表示频繁1-项目集中每两个项目之间的关联关系,通过遍历构造的关联矩阵有效地缩减事务数据库的大小,产生所有的频繁项集.利用模拟实验结果证明了所提算法可行性及有效性。
技术介绍
FP-Max算法用一棵FP-Tree来压缩保存事务数据库中与频繁项目集相关的信息,此FP-Tree必须双向可遍历,树的结点就需要大量的指针单元,维护FP-Tree需要占用大量的内存空间;此外最大频繁相集、和频繁闭项集能够涵盖了全部频繁项集,研究者常常将挖掘频繁项转化为挖掘最大频繁项和闭合模式项集.然而Apriori算法需多次扫描数据库,生成大量候选频繁项目集,直接影响算法效率;DHP算法产生的候选大2项集要小得多,但是数据库规模较小时利用Hash表产生候选项集不能明显提高算法效率;FP-GROWTH算法很大程度上都受到系统实际可利用内存的限制,随着待挖掘的数据库规模越来越庞大,如果在挖掘时设置的支持度很小,那么本文档来自技高网...

【技术保护点】
1.一种基于关联规则的数据挖掘技术,其技术在于,包括如下步骤:对于现有的任意数据记录顺序,将每一条事务交易数据看成事务矩阵中的行,事务交易数据划分不同属性类别,每个属性类别作为一列,假定事务数据库D中包含M条数据记录,数据记录分为N个类别,将该事务数据库看作一个M×N的矩阵。对于任意行,如果对应的事务交易记录在矩阵列中类别属性下存在对应的项目,则矩阵中该行的这一别属性对应位置记为1,否则记为0。将事务数据库转换为事务矩阵,各个数据项存在于交易数据记录中,则矩阵中对应取值为1,否则为0,相应的各项目的矩阵A1、A2、A3、A4、A5分别是A1=[1 0 1 0 0]、A2=[0 1 1 1 1]...

【技术特征摘要】
1.一种基于关联规则的数据挖掘技术,其技术在于,包括如下步骤:对于现有的任意数据记录顺序,将每一条事务交易数据看成事务矩阵中的行,事务交易数据划分不同属性类别,每个属性类别作为一列,假定事务数据库D中包含M条数据记录,数据记录分为N个类别,将该事务数据库看作一个M×N的矩阵。对于任意行,如果对应的事务交易记录在矩阵列中类别属性下存在对应的项目,则矩阵中该行的这一别属性对应位置记为1,否则记为0。将事务数据库转换为事务矩阵,各个数据项存在于交易数据记录中,则矩阵中对应取值为1,否则为0,相应的各项目的矩阵A1、A2、A3、A4、A5分别是A1=[10100]、A2=[01111]、A3=[11101]、A4=[10000]、A5=[01110],转换后事务矩阵Mij如下:根据矩阵Mij,计算各列矩阵值之和,若满足k为矩阵中属性Ak对应列号,aik是第k列的矩阵值,min是最小支持度计数,那么属性Ak为1阶大项集。若假设min=3,根据上面公式可得a12+a22+a32+a42+a52=4>3,故对应列属性A2为1阶大项集,同理可以得到事务数据库1阶大项集为{A2}、{A3}、{A5}。从而可以判断k阶大项集中必定不含有属性A1和A4,因此删除矩阵Mij中属性A1和A4对应列,从而在构造1阶大项集过程中就能够缩减数据规模。设{A1,A2,…,Ak}是一个k阶大项目集,如果在分矩阵中存在从属性Ak到项目Au的矩阵值相等且为1,那么项目集{A1,A2,…,Ak}可以被扩展为候选(k+1)阶项目集{A1,A2,…,Ak,Au}。得到候选项目集后,根据不同属性下矩阵值之间的运算...

【专利技术属性】
技术研发人员:万迅
申请(专利权)人:爱品克科技武汉股份有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1