一种高效的并行不确定性数据聚类方法技术

技术编号：21714441 阅读：24 留言：0更新日期：2019-07-27 19:13

本发明专利技术是一种高效的并行不确定性数据聚类方法。包括，利用区间数结合不确定性数据的统计信息来对不确定性数据进行描述。距离度量，对区间数间的距离进行进一步分析推导，得到更加适合不确定性数据间距离度量的距离度量方式。将数据的不确定性度量与表示，以及距离度量引入到聚类算法OPTICS中，来构建串行的不确定性数据聚类方法。使用MDD‑PRBP方法对数据集进行最小边界点数和均衡的分区划分，保障后续并行计算的负载均衡与聚类方法最终的高效运行。结合Hadoop平台，运用MapReduce模型实现并行计算，构建出一种高效的并行不确定性数据聚类方法。

An Efficient Parallel Uncertainty Data Clustering Method

全部详细技术资料下载

【技术实现步骤摘要】
一种高效的并行不确定性数据聚类方法
本专利技术属于静态不确定性数据集的数据挖掘领域，具体涉及到一种高效的并行不确定性数据聚类方法。
技术介绍
随着无线通信技术与网络信息技术的快速发展，数据的产生极其迅速，数据量也极其巨大。然而，由于原始数据不准确、采用粗粒度数据集合、出于隐私保护的特殊目的等原因，导致在电信、气象等众多领域中普遍包含不确定性数据。不确定性数据的聚类分析方法作为一种有实际意义而且有效的方法,可在众多存在不确定性数据的领域应用。不确定性数据的聚类问题十分具有挑战性。传统的数据聚类方法,由于其方法中没有处理数据不确定性的必要步骤，又只能单机串行运行，使得传统的数据聚类方法具有局限性。其只能较好的聚类确定性数据，且无法满足聚类大数据集的需要，如果将其直接用于聚类具有不确定性的数据则会使聚类结果极差。
技术实现思路
鉴于此,本专利技术提供一种高效聚类不确定性数据的聚类方法,以解决现有对不确定性数据进行聚类困难的问题。为了可以高效地聚类不确定性数据，首先，必须考虑数据的不确定性，并对数据的不确定性进行度量与表示；其次，运用合理的距离度量方法对不确定性数据进行距离度量；然后，将数据的不确定性度量与表示，以及不确定性数据间距离度量方法引入到基于密度的聚类算法OPTICS(OrderingPointsToIdentifytheClusteringStructure,点排序识别聚类结构)中；然后，使用MDD-PRBP方法进行数据分区划分，数据分区划分方法对数据集进行最小边界点数和均衡的分区划分；最后，结合Hadoop平台，运用MapReduce模型实现并行计算。进...

【技术保护点】
1.一种高效的并行不确定性数据聚类方法，其特征在于，包括数据的不确定性度量与表示、不确定性数据间的距离度量、构建串行的不确定性数据聚类方法、数据分区划分、构建高效的并行不确定性数据聚类方法。

【技术特征摘要】
1.一种高效的并行不确定性数据聚类方法，其特征在于，包括数据的不确定性度量与表示、不确定性数据间的距离度量、构建串行的不确定性数据聚类方法、数据分区划分、构建高效的并行不确定性数据聚类方法。2.根据权利要求1所述的不确定性数据聚类方法，其特征在于，所述数据的不确定性度量与表示具体为：利用区间数结合不确定性数据对象的统计信息(均值与标准差)来有效合理的对不确定性数据进行描述。首先获取不确定性数据对象的n为均值向量与标准误差向量引入包含因子k后，依据区间数的中点半径表示方式，将不确定数据对象表示为R表示实数。3.根据权利要求1所述的不确定性数据聚类方法，其特征在于，所述的不确定性数据间的距离度量具体为：不确定性数据对象经过区间数表示后，该对象便看作为一个区间数；在距离度量时，区间数间距离存在最大值与最小值，即区间数间的距离仍然是一个区间数；数据对象M,N之间的距离可表示为：D(M，N)min表示数据对象M，N之间，距离的...

【专利技术属性】
技术研发人员：吴翠先，何少元，何登平，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人