一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法技术

技术编号:15200012 阅读:134 留言:0更新日期:2017-04-22 01:00
本发明专利技术涉及大数据处理技术领域,特别涉及一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法。本发明专利技术是先将大的原始数据集进行分解,将分解之后的子集分配给大数据平台上性能相近的节点,在分解之后的小数据集上运行近邻传播聚类算法,之后在近邻传播聚类算法得到的中心代表点上用加权近邻传播聚类算法进行进一步整合,得到最终的具有代表性的数据点集。本发明专利技术提供了一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法,其能够实现大数据的快速准确的聚类挖掘工作。

A method of clustering data mining based on parallel weighted nearest neighbor propagation

The invention relates to the technical field of large data processing, in particular to a method for realizing cluster mining using large data with parallel weighted nearest neighbor propagation. The present invention is the first large set of original data decomposition, the subset distribution to a node after the decomposition of the big data platform of similar performance, running the affinity propagation clustering algorithm in small data set after the break, then get on the affinity propagation clustering center representative point using a weighted affinity propagation clustering algorithm for further integration finally, the representative data set. The invention provides a method for clustering and mining large data by using parallel weighted nearest neighbor communication, which can realize fast and accurate clustering mining of large data.

【技术实现步骤摘要】

本专利技术涉及大数据处理
,特别涉及一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法。
技术介绍
数据挖掘是从大规模的、不完全的、参杂噪声的、模糊的、随机性的数据集中发现信息和知识的过程。数据挖掘的任务包括关联分析、聚类分析、分类、预测和偏差分析等,其中聚类是无监督学习的过程,依据相似性将数据集划分为若干类,同一类间的数据彼此相似,不同类间的数据彼此相异。聚类分析能够建立宏观的数据概念,在对数据聚类后可直观地给出数据的分布模式,依据数据类别可以发现数据属性间的相关关系。在传统的商业数据挖掘中,人们使用SAS、SPSS等数据挖掘软件对商业数据进行处理、分析与挖掘,希望从中获取有价值信息。这种做法在大数据面前显得无助,或许可以在有限的时间内对部分数据进行挖掘,但这会带来数据不够全面的问题;如果要对数据进行全面的处理,必定会产生处理不够及时的问题。因此需要用合适的聚类挖掘方法来对应大数据处理中的信息挖掘。
技术实现思路
为了解决现有技术的问题,本专利技术提供了一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法,其能够实现大数据的快速准确的聚类挖掘工作。本专利技术所采用的技术方案如下:一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法,包括以下步骤:A、将大型原始数据集进行分解,将分解之后的子集分配给大数据平台上性能相近的节点;B、在分解之后的子集上运行近邻传播聚类算法,得到类的中心点集合;C、在近邻传播聚类算法得到的中心点集合上用加权近邻传播聚类算法进行进一步整合,得到最终的具有代表性的数据点集;D、重复上述步骤B、C,最终得到适合数量的聚类结果。步骤B中,还包含将得到的类中心点集合储存于本地磁盘的步骤。步骤C中,还包含将得到的数据点集储存于本地磁盘的步骤。方法具体包括:A、搭建Hadoop集群平台;B、将大型原始数据集划分为K个子集,将K个子集分配给集群平台中性能相近的数据节点;C、对所述的子集使用近邻传播聚类算法进行聚类;由于分解后的子集规模都比较小,能够快速得到类的中心点集合Ei={ei,ni本文档来自技高网...
一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法

【技术保护点】
一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法,包括以下步骤:A、将大型原始数据集进行分解,将分解之后的子集分配给大数据平台上性能相近的节点;B、在分解之后的子集上运行近邻传播聚类算法,得到类的中心点集合;C、在近邻传播聚类算法得到的中心点集合上用加权近邻传播聚类算法进行进一步整合,得到最终的具有代表性的数据点集;D、重复上述步骤B、C,最终得到适合数量的聚类结果。

【技术特征摘要】
1.一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法,包括以下步骤:A、将大型原始数据集进行分解,将分解之后的子集分配给大数据平台上性能相近的节点;B、在分解之后的子集上运行近邻传播聚类算法,得到类的中心点集合;C、在近邻传播聚类算法得到的中心点集合上用加权近邻传播聚类算法进行进一步整合,得到最终的具有代表性的数据点集;D、重复上述步骤B、C,最终得到适合数量的聚类结果。2.根据权利要求1所述的一种采用并行化加权近邻传播的大数据实现聚类挖掘的方法,其特征在于,所述的步骤B中,还包含将得到的类中心点集合储...

【专利技术属性】
技术研发人员:王俊杰戴鸿君于治楼
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1