一种基于关联规则的数据挖掘技术制造技术

技术编号：18553652 阅读：53 留言：0更新日期：2018-07-28 10:47

本发明专利技术公开了一种关联规则的数据挖掘技术，获取Herpink平台用户信息，提高数据挖掘的速度和时间的节省，有效建立给定数据集中各项集之间的关联规则，提出了一种0‑1矩阵关联规则数据挖掘算法。算法将事务数据库转化成M×N的矩阵，构造一个矩阵关联图表示频繁1‑项目集中每两个项目之间的关联关系，通过遍历构造的关联矩阵有效地缩减事务数据库的大小，产生所有的频繁项集，利用模拟实验结果证明了所提算法可行性及有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于关联规则的数据挖掘技术
本专利技术为提高挖掘大项目集的速度，有效建立给定数据集中各项集之间的关联规则，提出了一种0-1矩阵关联规则数据挖掘算法.算法将事务数据库转化成M×N的矩阵，构造一个矩阵关联图表示频繁1-项目集中每两个项目之间的关联关系，通过遍历构造的关联矩阵有效地缩减事务数据库的大小，产生所有的频繁项集.利用模拟实验结果证明了所提算法可行性及有效性。
技术介绍
FP-Max算法用一棵FP-Tree来压缩保存事务数据库中与频繁项目集相关的信息，此FP-Tree必须双向可遍历，树的结点就需要大量的指针单元，维护FP-Tree需要占用大量的内存空间；此外最大频繁相集、和频繁闭项集能够涵盖了全部频繁项集，研究者常常将挖掘频繁项转化为挖掘最大频繁项和闭合模式项集.然而Apriori算法需多次扫描数据库，生成大量候选频繁项目集，直接影响算法效率；DHP算法产生的候选大2项集要小得多，但是数据库规模较小时利用Hash表产生候选项集不能明显提高算法效率；FP-GROWTH算法很大程度上都受到系统实际可利用内存的限制，随着待挖掘的数据库规模越来越庞大，如果在挖掘时设...

【技术保护点】
1.一种基于关联规则的数据挖掘技术，其技术在于，包括如下步骤：对于现有的任意数据记录顺序，将每一条事务交易数据看成事务矩阵中的行，事务交易数据划分不同属性类别，每个属性类别作为一列，假定事务数据库D中包含M条数据记录，数据记录分为N个类别，将该事务数据库看作一个M×N的矩阵。对于任意行，如果对应的事务交易记录在矩阵列中类别属性下存在对应的项目，则矩阵中该行的这一别属性对应位置记为1，否则记为0。将事务数据库转换为事务矩阵，各个数据项存在于交易数据记录中，则矩阵中对应取值为1，否则为0，相应的各项目的矩阵A1、A2、A3、A4、A5分别是A1＝[1 0 1 0 0]、A2＝[0 1 1 1 1]...

【技术特征摘要】
1.一种基于关联规则的数据挖掘技术，其技术在于，包括如下步骤：对于现有的任意数据记录顺序，将每一条事务交易数据看成事务矩阵中的行，事务交易数据划分不同属性类别，每个属性类别作为一列，假定事务数据库D中包含M条数据记录，数据记录分为N个类别，将该事务数据库看作一个M×N的矩阵。对于任意行，如果对应的事务交易记录在矩阵列中类别属性下存在对应的项目，则矩阵中该行的这一别属性对应位置记为1，否则记为0。将事务数据库转换为事务矩阵，各个数据项存在于交易数据记录中，则矩阵中对应取值为1，否则为0，相应的各项目的矩阵A1、A2、A3、A4、A5分别是A1＝[10100]、A2＝[01111]、A3＝[11101]、A4＝[10000]、A5＝[01110]，转换后事务矩阵Mij如下：根据矩阵Mij，计算各列矩阵值之和，若满足k为矩阵中属性Ak对应列号，aik是第k列的矩阵值，min是最小支持度计数，那么属性Ak为1阶大项集。若假设min＝3，根据上面公式可得a12+a22+a32+a42+a52＝4>3，故对应列属性A2为1阶大项集，同理可以得到事务数据库1阶大项集为{A2}、{A3}、{A5}。从而可以判断k阶大项集中必定不含有属性A1和A4，因此删除矩阵Mij中属性A1和A4对应列，从而在构造1阶大项集过程中就能够缩减数据规模。设{A1,A2,…,Ak}是一个k阶大项目集，如果在分矩阵中存在从属性Ak到项目Au的矩阵值相等且为1，那么项目集{A1,A2,…,Ak}可以被扩展为候选(k+1)阶项目集{A1,A2,…,Ak,Au}。得到候选项目集后，根据不同属性下矩阵值之间的运算...

【专利技术属性】
技术研发人员：万迅，
申请(专利权)人：爱品克科技武汉股份有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人