一种高效的并行不确定性数据聚类方法技术

技术编号:21714441 阅读:24 留言:0更新日期:2019-07-27 19:13
本发明专利技术是一种高效的并行不确定性数据聚类方法。包括,利用区间数结合不确定性数据的统计信息来对不确定性数据进行描述。距离度量,对区间数间的距离进行进一步分析推导,得到更加适合不确定性数据间距离度量的距离度量方式。将数据的不确定性度量与表示,以及距离度量引入到聚类算法OPTICS中,来构建串行的不确定性数据聚类方法。使用MDD‑PRBP方法对数据集进行最小边界点数和均衡的分区划分,保障后续并行计算的负载均衡与聚类方法最终的高效运行。结合Hadoop平台,运用MapReduce模型实现并行计算,构建出一种高效的并行不确定性数据聚类方法。

An Efficient Parallel Uncertainty Data Clustering Method

【技术实现步骤摘要】
一种高效的并行不确定性数据聚类方法
本专利技术属于静态不确定性数据集的数据挖掘领域,具体涉及到一种高效的并行不确定性数据聚类方法。
技术介绍
随着无线通信技术与网络信息技术的快速发展,数据的产生极其迅速,数据量也极其巨大。然而,由于原始数据不准确、采用粗粒度数据集合、出于隐私保护的特殊目的等原因,导致在电信、气象等众多领域中普遍包含不确定性数据。不确定性数据的聚类分析方法作为一种有实际意义而且有效的方法,可在众多存在不确定性数据的领域应用。不确定性数据的聚类问题十分具有挑战性。传统的数据聚类方法,由于其方法中没有处理数据不确定性的必要步骤,又只能单机串行运行,使得传统的数据聚类方法具有局限性。其只能较好的聚类确定性数据,且无法满足聚类大数据集的需要,如果将其直接用于聚类具有不确定性的数据则会使聚类结果极差。
技术实现思路
鉴于此,本专利技术提供一种高效聚类不确定性数据的聚类方法,以解决现有对不确定性数据进行聚类困难的问题。为了可以高效地聚类不确定性数据,首先,必须考虑数据的不确定性,并对数据的不确定性进行度量与表示;其次,运用合理的距离度量方法对不确定性数据进行距离度量;然后,将数据的不确定性度量与表示,以及不确定性数据间距离度量方法引入到基于密度的聚类算法OPTICS(OrderingPointsToIdentifytheClusteringStructure,点排序识别聚类结构)中;然后,使用MDD-PRBP方法进行数据分区划分,数据分区划分方法对数据集进行最小边界点数和均衡的分区划分;最后,结合Hadoop平台,运用MapReduce模型实现并行计算。进而,提出一种高效的并行不确定性数据聚类方法,从而实现对不确定性数据的有效聚类。为实现以上专利技术目的,提出一种高效的并行不确定性数据聚类方法,具体包括以下步骤:第一步:数据的不确定性度量与表示。对采集到的不确定性数据利用区间数结合数据对象的均值与标准差,并引入包含因子k来合理的表示不确定性数据对象。第二步:距离度量。采用新的区间数间的距离度量方式,进行推导。将其用于不确定性数据对象间的距离度量。第三步:构建串行的不确定性数据聚类方法。将数据的不确定性度量与表示,以及距离度量引入到基于密度的聚类算法OPTICS中,使传统OPTICS算法具有聚类不确定性数据的能力。第四步:数据分区划分。使用MDD-PRBP方法进行数据分区划分,该方法对数据集进行最小边界点数和均衡的分区划分,保障后续并行计算的负载均衡与聚类方法最终的高效运行。第五步:构建高效的并行不确定性数据聚类方法。结合Hadoop平台,运用MapReduce模型实现并行计算。构建出一种高效的并行不确定性数据聚类方法。本专利技术的有益效果:本专利技术充分考虑数据的不确定性。首先,在度量与表示数据的不确定性时,运用具有强大不确定性度量的区间数理论,并结合数据对象本身的统计信息,再引入包含因子k来有效合理的表示不确定性数据,使数据的不确定性的度量与表示具有理论依据。其次,在数据对象间的距离度量过程中,对新的区间数间距离计算公式进行推导,以适应不确定性数据间的距离度量。然后,将数据的不确定性度量与表示,以及距离度量方法引入到聚类算法OPTICS中,使OPTICS算法具有聚类不确定性数据的能力。然后,使用数据分区划分方法MDD-PRBP对数据集进行最小边界点数和均衡的分区划分,保障后续并行计算的负载均衡与聚类方法最终的高效运行。最后,结合Hadoop平台,使用MapReduce模型实现并行计算。附图说明:图1是本专利技术的整体框架图。具体实施方式为了更好的说明本专利技术的内容,以下参考说明书附图并举实施例,对本专利技术的具体实施例作进一步的阐述。如图1所示为本专利技术的整体框架图,其中包括:对数据的不确定性进行度量以及表示不确定性数据对象,不确定性数据间的距离度量,构建串行的不确定性数据聚类方法,对数据集进行合理划分,运用MapReduce模型实现并行计算,构建高效的并行不确定性数据聚类方法。具体说明本专利技术的详细实施过程,包括如下步骤:第一步:对数据的不确定性进行度量以及表示不确定性数据对象。确定性数据对象可以表示为空间中的一个精确的点,而对于不确定性数据对象面对由于原始数据不准确,采用粗粒度数据集合或需要满足特殊应用目的等原因引起的属性值的不确定性时,则需要用空间中一个区域内的数据点集合来表示这个对象。这里将采用区间数理论结合均值与标准差来表示不确定性数据。区间数既是给定AL,AR∈Rm且AR≥AL其中AL为区间数的下界,AR为区间数的上界。称集合为一个区间数,当AL=AR时,区间数为一个精确数。区间数A=[AL,AR]也可表示为[mA-αA,mA+αA],即中点半径方式表示法,其中αA=(AR-AL)/2,mA=(AR+AL)/2,称mA为区间数的中点,αA为区间数的半径。在不确定性数据表示过程中,首先,需要获取不确定性数据对象的均值与标准差。对于m个n维不确定性数据对象Q1,Q2,…,Qm,第i个数据对象第j维度的均值为μj(Qi),如此相应的与Qi相对应的n维均值向量可以表示为第i个数据对象第j维度的误差用表示,它的值是与不确定数据对象Qi第j维度相关的标准差。如此,相应的与Qi相对应的n维误差向量可表示为其次,引入包含因子k,依据区间数的中点半径表示方式,可以将不确定性数据对象表示为第二步:不确定性数据间的距离度量。已知区间数X=[mX-αX,mX+αX],Y=[mY-αY,mY+αY],其中mX,mY,αX,αY∈Rn。在区间数任意维度j(1≤j≤n)上,两个区间数在数轴上的关系可归纳为以下两种:有公共区域和无公共区域。在第j维度上,当两个区间数有公共区域时,两区间数的最小距离为0,最大距离为|mXj-mYj|+αXj+αYj;当两区间数无公共区域时,两区间数的最小距离为|mXj-mYj|-αXj-αYj,两区间数的最大距离为|mXj-mYj|+αXj+αYj。因此,在第j维度上,两个区间数间的距离Dj=[Djmin,Djmax],可以按公式(1)与(2)计算:Djmax=|mXj-mYj|+αXj+αYj(2)既而区间数之间的距离可表示为D=[Dmin,Dmax],其中既而得:由此得到的区间数之间的距离仍是一个区间数,其比较全面的表示了区间数之间各种可能的距离值。由上述区间数间的距离计算公式可得,n维不确定性数据对象M,N间的距离计算方法如公式:其中为了可以有效合理的将距离度量与聚类算法结合起来,引入相关系数λ{λ∈R|0≤λ≤1},把不确定性数据之间距离的最小值与最大值结合起来。那么不确定性数据对象M,N之间的距离可表示为:其中,当λ=0时,则对应两个不确定性数据间距离的最大值,此时相关系数最小,两者相距最远;当λ=1时,则对应两个不确定性数据间距离的最小值,此时相关系数最大,两者相距最近。由此得到的不确定性数据对象间的距离满足非负性和对称性。第三步:构建不确定性数据聚类方法。将数据的不确定性度量与表示,以及距离度量引入到基于密度的聚类算法OPTICS中,构建一种基于区间数的不确定性数据聚类方法。(1)区间数环境下适合本专利技术的密度聚类算法的相关定义。ε区间领域:给定对象为中心,以ε为半径的空间,称为ε区间领域,其中本文档来自技高网...

【技术保护点】
1.一种高效的并行不确定性数据聚类方法,其特征在于,包括数据的不确定性度量与表示、不确定性数据间的距离度量、构建串行的不确定性数据聚类方法、数据分区划分、构建高效的并行不确定性数据聚类方法。

【技术特征摘要】
1.一种高效的并行不确定性数据聚类方法,其特征在于,包括数据的不确定性度量与表示、不确定性数据间的距离度量、构建串行的不确定性数据聚类方法、数据分区划分、构建高效的并行不确定性数据聚类方法。2.根据权利要求1所述的不确定性数据聚类方法,其特征在于,所述数据的不确定性度量与表示具体为:利用区间数结合不确定性数据对象的统计信息(均值与标准差)来有效合理的对不确定性数据进行描述。首先获取不确定性数据对象的n为均值向量与标准误差向量引入包含因子k后,依据区间数的中点半径表示方式,将不确定数据对象表示为R表示实数。3.根据权利要求1所述的不确定性数据聚类方法,其特征在于,所述的不确定性数据间的距离度量具体为:不确定性数据对象经过区间数表示后,该对象便看作为一个区间数;在距离度量时,区间数间距离存在最大值与最小值,即区间数间的距离仍然是一个区间数;数据对象M,N之间的距离可表示为:D(M,N)min表示数据对象M,N之间,距离的...

【专利技术属性】
技术研发人员:吴翠先何少元何登平
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1