一种基于GraphX的分布式幂迭代聚类方法和装置制造方法及图纸

技术编号:16819623 阅读:52 留言:0更新日期:2017-12-16 13:14
本发明专利技术公开了一种基于GraphX的分布式幂迭代聚类方法和装置。该方法包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。本发明专利技术有效地解决了基于图的聚类算法可扩展性不强、计算复杂度高的问题。

A distributed power iterative clustering method and device based on GraphX

The invention discloses a distributed power iterative clustering method and device based on GraphX. The method comprises: a plurality of data distributed storage; the plurality of data were from a number of data cleaning, data cleaning; the similarity between 22 of the plurality of data cleaning based on the affinity matrix constructed; based on GraphX, using the random initial vector set of the affinity matrix iterative processing; by using the KMeans++ algorithm, the iteration vector clustering, and according to the results of clustering results of the plurality of data cleaning. The invention effectively solves the problem that the clustering algorithm based on graph is not extensible and has high computational complexity.

【技术实现步骤摘要】
一种基于GraphX的分布式幂迭代聚类方法和装置
本专利技术涉及数据处理
,特别是涉及一种基于GraphX的分布式幂迭代聚类方法和装置。
技术介绍
幂迭代聚类是在谱聚类的基础上演化出的一种聚类算法。幂迭代聚类建立在图论中的谱图理论基础上,本质上是将聚类问题转化为图的最优划分问题。与经典的图聚类选取相似矩阵的几个特征向量构成低维子空间进行聚类不同,幂迭代聚类对所有的特征向量进行线性组合,对得到的一维子空间进行聚类。所以,幂迭代聚类的效果一般比谱聚类要好。幂迭代聚类的核心计算是矩阵与向量的乘法计算,不需要计算矩阵的特征值和特征向量。所以,幂迭代聚类比谱聚类更加简单、快速。为了让该算法应用在大规模数据分析中,研究人员基于多点接口(MultiPointInterface,MPI)并行实现了幂迭代聚类,但仍存在节点失效的问题。还有基于HadoopMapReduce的幂迭代聚类研究,但由于MapReduce计算框架每次shuffle都要读写磁盘,对于需要进行多次迭代的算法存在性能瓶颈。因此,在现有技术中,基于图的聚类算法可扩展性不强、计算复杂度高。
技术实现思路
本专利技术提供一种基于Grap本文档来自技高网...
一种基于GraphX的分布式幂迭代聚类方法和装置

【技术保护点】
一种基于GraphX的分布式幂迭代聚类方法,其特征在于,包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。

【技术特征摘要】
1.一种基于GraphX的分布式幂迭代聚类方法,其特征在于,包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。2.如权利要求1所述的方法,其特征在于,所述基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵,包括:在n个清洗数据中,利用预设的相似度算法sim,计算第i个清洗数据xi和第j个清洗数据xj之间的相似度;将计算得到的相似度sim(xi,xj)作为n维亲和矩阵的第i行、第j列的元素Aij;其中,1≤i≤n,1≤j≤n,n>0。3.如权利要求1所述的方法,其特征在于,所述利用设置的随机初始向量对所述亲和矩阵进行迭代处理,包括:对所述亲和矩阵进行归一化处理;根据归一化后的所述亲和矩阵,设置随机初始向量;利用归一化后的所述亲和矩阵和所述随机初始向量,在GraphX组件中构建图,并对所述图进行多次迭代,直到迭代获得的收敛加速度小于预设的收敛阈值为止。4.如权利要求3所述的方法,其特征在于,所述根据归一化后的所述亲和矩阵,设置随机初始向量,包括:对所述亲和矩阵按行进行归一化处理;利用行归一化后的亲和矩阵初始化预设的初始向量,得到随机初始向量。5.如权利要求3所述的方法,其特征在于,利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果,包括:利用KMeans++算法,对最后一次迭代得到的迭代向量进行聚类处理,得到所述最后一次迭代得到的迭代向量的聚类处理结果;根据所述聚类处理结果,确定所述多个清洗数据的聚类结果;其中,所述最后一次迭代得到的迭代向量中的元素...

【专利技术属性】
技术研发人员:徐晓燕赵军臧天宁李高超周渊
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1