当前位置: 首页 > 专利查询>南京大学专利>正文

基于MapReduce的概率频繁项集挖掘方法技术

技术编号:10335039 阅读:142 留言:0更新日期:2014-08-20 19:03
本发明专利技术公开了一种基于MapReduce的概率频繁项集挖掘方法,包含以下步骤:1)读入不确定数据集T1;2)在Map端依次处理不确定数据集T1中的每一个事务,将事务中每一项及其概率值映射成<key,value>键值对;3)在Reduce端接收Map端的输出,利用正态近似方法生成概率频繁1项集;4),将3)中所输出的概率频繁1项集,生成列表F_list;5),读入存储在分布式文件系统HDFS上的不确定数据集T1,按照列表F_list进行处理,生成不确定数据集T2;6),运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集,然后利用正态近似的方法从候选项集中生成概率频繁项集,直到生成所有的概率频繁项集为止。

【技术实现步骤摘要】
基于MapReduce的概率频繁项集挖掘方法
本专利技术涉及计算机数据发掘方法,特别是基于MapReduce的大规模不确定数据概率频繁项集的近似挖掘方法。
技术介绍
近年来,由于一些新的应用,比如:传感器网络的检测、移动物体的搜索、蛋白间相互作用的网络分析以及数据的集成和数据的清洗等等,不确定数据的挖掘成为了数据挖掘领域的一个新的热门研究话题。不确定数据挖掘主要包括聚类、分类、关联规则的挖掘、孤立点检测等方面,其中频繁项集的挖掘是数据挖掘领域的一个基础。因此,不确定数据中的概率频繁项集的挖掘成为了研究的热点。例如目前比较流行的无线传感网络,无线传感网络搜集了大量的数据。然而由于传感器固有的不确定性,搜集到的数据通常是不精确的。因此,如何挖掘不确定的概率数据中隐藏的规则是很必要的。然而在传统数据的频繁项集的挖掘过程中,每一事物包含的项是确定的,但是在很多不确定数据中,不确定性造成了挖掘结果的复杂性,因此不确定数据中有效的概率频繁项集的挖掘方法是研究的重要课题。而面对海量的数据,传统的单机模式下的概率频繁项集的挖掘方法往往难以满足要求,开源的Hadoop平台为许许多多的数据挖掘方法提供了沃土。授权中国专利“一种基于Hadoop的频繁闭项集挖掘方法”(102622447A)和“一种基于MapReduce模型的并行关联方法”(103150163A)也是基于Hadoop平台MapReduce模型下,关于频繁项集的挖掘方法。但是,其所关注的问题还是在确定数据中的频繁项集,所求解的频繁项集也是基于项集在所有事务中的支持度,而非项集的频繁概率,该传统方法根本无法处理不确定数据。另有专利“一种关联规则挖掘方法及其系统”(101799810B)也是针对确定数据中频繁项集的挖掘,但一方面该方法因为没有基于MapReduce的并行化不能处理大数据,另一方面该方法不能处理不确定数据,目前已知的关于频繁项集挖掘的专利都不适用于复杂的不确定数据中概率频繁项集的挖掘。
技术实现思路
专利技术目的:本专利技术为了解决现有技术中的问题,提出了一种基于MapReduce的概率频繁项集挖掘方法,通过Hadoop的MapReduce分布式框架下,采用UApriori方法基础上的一种概率频繁项集正态近似挖掘方法,从而有效解决大规模不确定数据下,概率频繁项集快速准确挖掘的问题。
技术实现思路
:本专利技术公开了一种基于MapReduce的概率频繁项集挖掘方法,包含以下步骤:1),读入存储在分布式文件系统HDFS上的不确定数据集T1,该不确定数据集共包含N个事务,N>1;2),在Map端依次处理不确定数据集T1中的每一个事务,事务中包含不同的项以及该项在事务中出现的概率值,项是事务中记录数据的基本单元,将事务的每一项及其概率值映射成<key,value>键值对,其中key代表项集,项集是由项组成的集合,value代表该项集在一个事务中的概率值,以事务t1{(B,1.0);(C,0.5);(D,0.2);(E,0.5)}为例,t1中包含5个项B,C,D,E,每一项后面的数字,表示该项出现在事务t1中的概率值,对事务t1来说它将会生成<{B},1.0>,<{C},0.5>,<{D},0.2>和<{E},0.5>的<key,value>键值对,此时的项集key中都只含有1个项,为1项集,当项集中含有k(k≥2)个项时,称之为k项集;3),在Reduce端接收Map端的输出,依次处理每个项集key,利用正态近似方法计算项集key的频繁概率,判断该项集key是否为概率频繁项集,若是,则以项集key的频繁概率作为项集key对应的value的值,输出<key,value>键值对,否则舍去当前项集key,继续处理下一个项集,Reduce输出关于概率频繁1项集的<key,value>键值对;4),将3)中所输出<key,value>键值对中的项集key按照value值由大到小进行排序,由此生成列表F_list,列表F_list为概率频繁1项集的集合;5),读入存储在分布式文件系统HDFS上的不确定数据集T1,并且将每个事务中的项及其概率值,按照这些项在列表F_list中的顺序进行排序,删去不在列表F_lsit中的项及其概率值,生成处理后的不确定数据集T2,将T2存储在分布式文件系统HDFS上;6),运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集,然后利用正态近似的方法从候选项集中生成概率频繁项集,直到生成所有概率频繁项集为止。本专利技术中,所述步骤3中利用正态近似来计算项集key的频繁概率,具体如下:给定一个包含N条事务的不确定数据集,用户给定一个最小支持率minsup和最小频繁概率阈值σ,其中minsup和σ取值范围都为(0,1),项集X满足:P(sup(X)≥N×minsup)≥σ,那么项集X是概率频繁项集;正态分布近似概率频繁项挖掘包括以下步骤:不确定数据集中每个事务是否包含项集X可以看作是一个单一的硬币投掷过程,也就是项集X是否出现在事务中服从泊松二项分布,当数据量很大时,根据Lyapunov中心极限定理,泊松二项分布可以用正态分布来近似求解。sup(X)是指项集X在所有事务中出现的次数,即项集X在不确定数据集中的支持度,首先计算项集X在所有事务中出现的次数得到sup(X);如果项集X不满足sup(X)≥N×minsup的条件,那么项集X不是概率频繁项集,若项集X满足sup(X)≥N×minsup的条件,再利用正态分布近似求解项集X的频繁概率,其公式如下:如果项集X的频繁概率不小于阈值σ,那么X是概率频繁项集,否则,X不是概率频繁项集,其中,P(sup(X)≥N×minsup)代表sup(X)大于等于N×minsup的概率值,即项集X的频繁概率,Φ代表正态分布的累积分布函数,esup(X)代表项集X的期望概率支持度,Var(X)代表项集X的方差,计算公式如下:其中,Pi(X)表示项集X在第i个事务中的概率值,i取值范围为[1,N],若第i个事务不包含项集X,则Pi(X)=0,若第i个事务包含项集X,Pi(X)计算公式如下:n≥2,Pi(x)表示项x在第i个事务中的概率值,若第i个事务不包含项x,则Pi(x)=0。本专利技术中,所述步骤6)运行基于MapReduce的UApriori方法包含以下步骤:21)根据列表F_list概率频繁1项集的集合,将列表F_list中任意两个不相同的概率频繁1项集组合生成候选2项集,所有的候选2项集组成候选2项集的集合,存储在分布式文件系统HDFS中;22)若候选项集的集合不为空,直接进入步骤23),若候选项集的集合为空,则结束;23)在Map端载入分布式文件系统HDFS上的候选项集的集合,读取分布式文件系统HDFS上的不确定数据集T2,根据候选项集的集合依次处理不确定数据集T2中的每个事务:如果一个事务中包含候选集合中的一个候选项集,将该候选项集及其在事务中的概率值映射成新的<key,value>键值对,其中key代表新的候选项集,value代表该候选项集在这个事务中的概率本文档来自技高网
...
基于MapReduce的概率频繁项集挖掘方法

【技术保护点】
一种基于MapReduce的概率频繁项集挖掘方法,其特征在于,包含以下步骤:1),读入存储在分布式文件系统HDFS上的不确定数据集T1,该不确定数据集共包含N个事务,N>1;2),在Map端依次处理不确定数据集T1中的每一个事务,事务中包含不同的项以及该项在事务中出现的概率值,项是事务记录数据的基本单元,将事务的每一项及其概率值映射成<key,value>键值对,其中key代表项集,项集是由项组成的集合,此时项集中只含有1项,为1项集,value代表该项集在一个事务中的概率值;3),在Reduce端接收Map端的输出,依次处理每个项集key,利用正态近似方法计算项集key的频繁概率,判断该项集key是否为概率频繁项集,若是,则以项集key的频繁概率作为项集key对应的value的值,输出<key,value>键值对,否则舍去当前项集key,继续处理下一个项集,Reduce输出关于概率频繁1项集的<key,value>键值对;4),将3)中所输出<key,value>键值对中的项集key按照value值由大到小进行排序,由此生成列表F_list,列表F_list为概率频繁1项集的集合,其中1项集表示项集中只含有1个项,当项集中含有k(k≥2)个项时,称之为k项集;5),读入存储在分布式文件系统HDFS上的不确定数据集T1,并且将每个事务中的项及其概率值,按照这些项在列表F_list中的顺序进行排序,删去不在列表F_lsit中的项及其概率值,生成处理后的不确定数据集T2,将T2存储在分布式文件系统HDFS上;6),运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集,然后利用正态近似的方法从候选项集中生成概率频繁项集,直到生成所有的概率频繁项集为止。...

【技术特征摘要】
1.一种基于MapReduce的概率频繁项集挖掘方法,其特征在于,包含以下步骤:1),读入存储在分布式文件系统HDFS上的不确定数据集T1,该不确定数据集共包含N个事务,N>1;2),在Map端依次处理不确定数据集T1中的每一个事务,事务中包含不同的项以及该项在事务中出现的概率值,项是事务记录数据的基本单元,将事务的每一项及其概率值映射成<key,value>键值对,其中key代表项集,项集是由项组成的集合,此时项集中只含有1项,为1项集,value代表该项集在一个事务中的概率值;3),在Reduce端接收Map端的输出,依次处理每个项集key,利用正态近似方法计算项集key的频繁概率,判断该项集key是否为概率频繁项集,若是,则以项集key的频繁概率作为项集key对应的value的值,输出<key,value>键值对,否则舍去当前项集key,继续处理下一个项集,Reduce输出关于概率频繁1项集的<key,value>键值对;4),将3)中所输出<key,value>键值对中的项集key按照value值由大到小进行排序,由此生成列表F_list,列表F_list为概率频繁1项集的集合,其中1项集表示项集中只含有1个项,当项集中含有k(k≥2)个项时,称之为k项集;5),读入存储在分布式文件系统HDFS上的不确定数据集T1,并且将每个事务中的项及其概率值,按照这些项在列表F_list中的顺序进行排序,删去不在列表F_list中的项及其概率值,生成处理后的不确定数据集T2,将T2存储在分布式文件系统HDFS上;6),运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集,然后利用正态近似的方法从候选项集中生成概率频繁项集,直到生成所有的概率频繁项集为止;所述步骤3中利用正态近似来计算项集key的频繁概率,具体如下:给定一个包含N条事务的不确定数据集,用户给定一个最小支持率minsup和最小频繁概率阈值σ,其中minsup和σ取值范围都为(0,1),项集X满足:P(sup(X)≥N×minsup)≥σ,则项集X是概率频繁项集;正态分布近似概率频繁项集挖掘包括以下步骤:sup(X)是指项集X在不确定数据集所有事务中出现的次数,即项集X在不确定数据集中的支持度,首先计算项集X在所有事务中出现的次数得到sup(X);如果项集X不满足sup(X)≥N×minsup的条件,那么项集X不是概率频繁项集,若项集X满足sup(X)≥N×mins...

【专利技术属性】
技术研发人员:杨育彬徐静王苏琦
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1