【技术实现步骤摘要】
本专利技术涉及遥感影像领域,尤其涉及一种关联规则的挖掘方法和关联规则的挖掘装置。
技术介绍
关联规则挖掘是数据挖掘领域中一个非常重要的分支,主要用于从大数据量的事务集中找出满足用户最小支持度的频繁项目集。对遥感影像数据挖掘而言,其过程可以理解为从遥感影像中抽取不同层次的知识,分析知识之间的关系,从而挖掘出遥感影像中隐含的潜在的规律性知识。现有的Sampling算法、Partition算法、DIC算法等都试图减少皯交易数据集合的搜索次数,但仍有很多缺点。Sampling算法从原数据集合中随机抽样出一部分样本,利用样本来挖掘关联规则以减少算法的搜索次数,但是由于数据集合中经常存在数据分布不均匀的情况,所以随机抽样根本就无法保证能够抽取到有代表性的样本;Partition算法虽然通过对数据集合分区分别挖掘,最后进行汇总的方法来减轻I/O的负担,事实上它是增加了CPU的负担;DIC算法采用动态计算的策略来减少搜索次数以提高算法的效率,但与Apriori算法在思想上没有根本不同之处,它也还是一个多趟搜索算法。这些算法在读入交易数据时生成候选项目集,产生许多不必要的候选项目集,计算量大。尤其对海量数据集合来说,以上算法只有在较高的最小支持度和最小可信度下或增加其它约束后才有一定的挖掘效率,否则将会产生频繁项目集的组合爆炸,而变得效率低下甚至超过机器的存储和计算能力。因为任何算法都必须计算项目集及其支持 ...
【技术保护点】
一种关联规则的挖掘方法,其特征在于:所述挖掘方法包括以下步骤:获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集的长度;根据所述多维数据立方体得到1‑项集和1‑项频繁集;根据1‑项频繁集得到k‑项集和k‑项频繁集,以及根据k‑项频繁集得到k+1‑项集和k+1‑项频繁集,其中k为大于且等于2的正整数;根据1‑项频繁集和k‑项频繁集,产生1‑项频繁集和k‑项频繁集的所有子集以生成所述事务集的关联规则。
【技术特征摘要】
1.一种关联规则的挖掘方法,其特征在于:所述挖掘方法包括以下步骤:
获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个
事务集的长度;
根据所述多维数据立方体得到1-项集和1-项频繁集;
根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项频繁集得到
k+1-项集和k+1-项频繁集,其中k为大于且等于2的正整数;
根据1-项频繁集和k-项频繁集,产生1-项频繁集和k-项频繁集的所有子
集以生成所述事务集的关联规则。
2.如权利要求1所述的挖掘方法,其特征在于:所述多维数据立方体包括
单值数据立方体,多值无序数据立方体,多值有序数据立方体和属性数据立方
体。
3.如权利要求1或2所述的挖掘方法,其特征在于:所述将所述事务集转
化为多维数据立方体的步骤,包括以下步骤:
根据所述事务集中每个事务的项的取值,将所述事务集转化为多维数据立
方体。
4.如权利要求3的挖掘方法,其特征在于:所述根据所述多维数据立方体
得到1-项集和1-项频繁集的步骤,包括以下步骤:
统计所述事务集中每个值在每个维度上的出现频率以及每个维度上每个
\t值的支持度,得到1-项集;
查找其支持度大于预设的支持度的1-项集,得到1-项频繁集。
5.如权利要求3的挖掘方法,其特征在于:根据1-项频繁集得到k-项集
和k-项频繁集,以及根据k-项频繁集得到k+1-项集和k+1-项频繁集,包括以
下步骤:
将1-项频繁集中的每两个频繁项进行逻辑或运算再进行求和运算,得到
1-项频繁集中的多个运算结果;
判断每个运算结果是否等于2,如果是,所述运算结果对应的两个频繁项
进行相交,得到当前2-项集;
计算当前2-项集的支持度,查找其支持度大于最小支持度的2-项集,得
到2-项频繁集;
重复由1-项集生成2-项频繁集的过程,将k-项频繁集中的每两个频繁项
进行“逻辑或”运算再进行求和运算,得到k-项频繁集中的多个运算结果;
判断每个运算结果是否等于k+1,如果是,所述运算结果对应的两个频繁
项进行相交,以及根据所述相交结果得到当前的k+1-项集;
计算当前k+1-项集的支持度,查找其支持度大于最小支持度的k+1-项集,
得到k+1-项频繁集。
6.如权利要求3的挖掘方法,其特征在于:根据1-项频繁集得到k-项集
和k-项频繁集,以及根据k-项频繁集得到k+1-项集和k+1-项频繁集,包括以
下步骤:
将1-项频繁集中的每两个频繁项进行逻辑或运算再进行求和运算,得到
\t1-项频繁集中的多个运算结果;
判断每个运算结果是否等于2,如果是,所述运算结果对应的两个频繁项
进行相交,得到当前2-项集;
计算当前2-项集的支持度,查找其支持度大于最小支持度的2-项集,得
到2-项频繁集;
将k-项集与1-项频繁集进行逻...
【专利技术属性】
技术研发人员:刘军,陈凯,钱静,刘萍,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。