一种关联规则的挖掘方法和关联规则的挖掘装置制造方法及图纸

技术编号:14984644 阅读:78 留言:0更新日期:2017-04-03 16:11
本发明专利技术公开了一种关联规则的挖掘方法,所述挖掘方法包括以下步骤:获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集的长度;根据所述多维数据立方体得到1-项集和1-项频繁集;根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项频繁集得到k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整数;根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁集的所有子集以生成所述事务集的关联规则。该方法能减少系统的运行时间。

【技术实现步骤摘要】

本专利技术涉及遥感影像领域,尤其涉及一种关联规则的挖掘方法和关联规则的挖掘装置
技术介绍
关联规则挖掘是数据挖掘领域中一个非常重要的分支,主要用于从大数据量的事务集中找出满足用户最小支持度的频繁项目集。对遥感影像数据挖掘而言,其过程可以理解为从遥感影像中抽取不同层次的知识,分析知识之间的关系,从而挖掘出遥感影像中隐含的潜在的规律性知识。现有的Sampling算法、Partition算法、DIC算法等都试图减少皯交易数据集合的搜索次数,但仍有很多缺点。Sampling算法从原数据集合中随机抽样出一部分样本,利用样本来挖掘关联规则以减少算法的搜索次数,但是由于数据集合中经常存在数据分布不均匀的情况,所以随机抽样根本就无法保证能够抽取到有代表性的样本;Partition算法虽然通过对数据集合分区分别挖掘,最后进行汇总的方法来减轻I/O的负担,事实上它是增加了CPU的负担;DIC算法采用动态计算的策略来减少搜索次数以提高算法的效率,但与Apriori算法在思想上没有根本不同之处,它也还是一个多趟搜索算法。这些算法在读入交易数据时生成候选项目集,产生许多不必要的候选项目集,计算量大。尤其对海量数据集合来说,以上算法只有在较高的最小支持度和最小可信度下或增加其它约束后才有一定的挖掘效率,否则将会产生频繁项目集的组合爆炸,而变得效率低下甚至超过机器的存储和计算能力。因为任何算法都必须计算项目集及其支持度,所以真正影响算法效率的是对项目集及其支持度的计算问题。每一次的计算不仅花费大量CPU时间,而且还牵涉I/O的请求。也就说,现有关联规则挖掘算法由于需要多次遍历事务数据库,导致挖掘效率低下,需要花费大量CPU时间。另外现有的Apriori、FP-Growth及其改进算法对数据有一定的要求,即同一个事务中,项的取值不能相同,否则挖掘算法将不能运行。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此本发明的第一个目的在于提出一种关联规则的挖掘方法。本专利技术的第二个目的在于提出关联规则的挖掘装置。为了实现上述目的,本专利技术第一方面实施例的关联规则的挖掘方法,所述挖掘方法包括以下步骤:获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集的长度;根据所述多维数据立方体得到1-项集和1-项频繁集;根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项集得到k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整数;根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁集的所有子集以生成所述事务集的关联规则。本专利技术实施例的关联规则的挖掘方法,所述挖掘方法包括以下步骤:获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集的长度;根据所述多维数据立方体得到1-项集和1-项频繁集;根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项频繁集得到k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整数;根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁集的所有子集以生成所述事务集的关联规则。本专利技术实施例的关联规则的挖掘方法,整个关联规则挖掘过程仅遍历了一遍事务集,虽然在获取频繁项集及关联规则时需要多次遍历多维数据立方体,但遍历后者的时间消耗要远小于遍历事务集,因此从运行速度上来说,本专利技术的方法要明显快于传统的挖掘算法。为了实现上述目的,本专利技术第二方面实施例的关联规则的挖掘装置,所述挖掘装置包括:转化模块,用于获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集的长度;第一生成模块,用于根据所述多维数据立方体得到1-项集和1-项频繁集;第二生成模块,用于根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项频繁集得到k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整数;第三生成模块,用于根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁集的所有子集以生成所述事务集的关联规则。本专利技术实施例的关联规则的挖掘装置,整个关联规则挖掘过程仅遍历了一遍事务集,虽然在获取频繁项集及关联规则时需要多次遍历多维数据立方体,但遍历后者的时间消耗要远小于遍历事务集,因此从运行速度上来说,本专利技术的方法要明显快于传统的挖掘算法。附图说明图1是本专利技术关联规则的挖掘方法一实施例的流程图;图2是本专利技术生成k-项集的方法第一实施例的流程图;图3是本专利技术生成k-项集的方法第二实施例的流程图;图4是本专利技术生成k-项集的方法第三实施例的流程图;图5是本专利技术关联规则的挖掘装置一实施例的结构示意图;图6是本专利技术关联规则的挖掘方法的运行时间示意图;图7是现有挖掘方法的运行时间示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的关联规则的挖掘方法和关联规则的挖掘装置。图1是根据本专利技术一个实施例关联规则的挖掘方法的流程图。如图1所示,所述关联规则的挖掘方法,包括以下步骤:S11,获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集每一个项的长度。具体地,根据所述事务集中每个事务的项的取值,将所述事务集转化为多维数据立方体。其中,多维数据立方体用于实现对数据仓库中多维数据的多角度多层面的分析和处理。本实施例中,将事务集中的每一个项定义为一个维,而每一个项的取值范围定义为该维的长度,例如,一个事务集的结构如下:在所述事务集中,包含3个维,分别为Item1,Item2和Item3,这3个维的长度分别为5,4,4。由此可以将该事务集用一个三维数据立方体表示,三维数据立方体可以用如下的三维直角坐标系表达:具体的,事务集中的每一个事务,均可以用三维直角坐标系中的一个点来表示。在物理存储上,该三维数据立方体可以用一个三维数组来存储,如果将三维数据立方体用C表示,则T1事务可以用C[1][4][3]=1来表示,同理可表示T2和T3事务。事务集中的所有事务均可以用三维数组中的一个点来存储,而三维数组中不包含在事务集中的点则用0来表示。由此,即可本文档来自技高网
...

【技术保护点】
一种关联规则的挖掘方法,其特征在于:所述挖掘方法包括以下步骤:获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集的长度;根据所述多维数据立方体得到1‑项集和1‑项频繁集;根据1‑项频繁集得到k‑项集和k‑项频繁集,以及根据k‑项频繁集得到k+1‑项集和k+1‑项频繁集,其中k为大于且等于2的正整数;根据1‑项频繁集和k‑项频繁集,产生1‑项频繁集和k‑项频繁集的所有子集以生成所述事务集的关联规则。

【技术特征摘要】
1.一种关联规则的挖掘方法,其特征在于:所述挖掘方法包括以下步骤:
获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个
事务集的长度;
根据所述多维数据立方体得到1-项集和1-项频繁集;
根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项频繁集得到
k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整数;
根据1-项频繁集和k-项频繁集,产生1-项频繁集和k-项频繁集的所有子
集以生成所述事务集的关联规则。
2.如权利要求1所述的挖掘方法,其特征在于:所述多维数据立方体包括
单值数据立方体,多值无序数据立方体,多值有序数据立方体和属性数据立方
体。
3.如权利要求1或2所述的挖掘方法,其特征在于:所述将所述事务集转
化为多维数据立方体的步骤,包括以下步骤:
根据所述事务集中每个事务的项的取值,将所述事务集转化为多维数据立
方体。
4.如权利要求3的挖掘方法,其特征在于:所述根据所述多维数据立方体
得到1-项集和1-项频繁集的步骤,包括以下步骤:
统计所述事务集中每个值在每个维度上的出现频率以及每个维度上每个

\t值的支持度,得到1-项集;
查找其支持度大于预设的支持度的1-项集,得到1-项频繁集。
5.如权利要求3的挖掘方法,其特征在于:根据1-项频繁集得到k-项集
和k-项频繁集,以及根据k-项频繁集得到k+1-项集和k+1-项频繁集,包括以
下步骤:
将1-项频繁集中的每两个频繁项进行逻辑或运算再进行求和运算,得到
1-项频繁集中的多个运算结果;
判断每个运算结果是否等于2,如果是,所述运算结果对应的两个频繁项
进行相交,得到当前2-项集;
计算当前2-项集的支持度,查找其支持度大于最小支持度的2-项集,得
到2-项频繁集;
重复由1-项集生成2-项频繁集的过程,将k-项频繁集中的每两个频繁项
进行“逻辑或”运算再进行求和运算,得到k-项频繁集中的多个运算结果;
判断每个运算结果是否等于k+1,如果是,所述运算结果对应的两个频繁
项进行相交,以及根据所述相交结果得到当前的k+1-项集;
计算当前k+1-项集的支持度,查找其支持度大于最小支持度的k+1-项集,
得到k+1-项频繁集。
6.如权利要求3的挖掘方法,其特征在于:根据1-项频繁集得到k-项集
和k-项频繁集,以及根据k-项频繁集得到k+1-项集和k+1-项频繁集,包括以
下步骤:
将1-项频繁集中的每两个频繁项进行逻辑或运算再进行求和运算,得到

\t1-项频繁集中的多个运算结果;
判断每个运算结果是否等于2,如果是,所述运算结果对应的两个频繁项
进行相交,得到当前2-项集;
计算当前2-项集的支持度,查找其支持度大于最小支持度的2-项集,得
到2-项频繁集;
将k-项集与1-项频繁集进行逻...

【专利技术属性】
技术研发人员:刘军陈凯钱静刘萍
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1