一种基于分布式聚类的大数据产品指标聚类方法技术

技术编号:35857886 阅读:13 留言:0更新日期:2022-12-07 10:45
本发明专利技术公开了一种基于分布式聚类的大数据产品指标聚类方法,包括以下步骤:每个子节点读取本地的指标数据集,将选出的数据点作为候选的聚类中心点;初始化每个粒子的速度和位置,并计算出每个粒子的适应度;迭代更新粒子的速度和位置;当达到终止条件时,二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点,细化挑选出的候选点;在进行细化之后,随机的从指标数据集中挑选出若干数据点用来补全候选数据集;将细化之后的聚类结果通过网络通信发送至主节点;主节点将接收到的聚类中心点整合为一个数据集,并进行处理后全局聚类结果。结果。结果。

【技术实现步骤摘要】
一种基于分布式聚类的大数据产品指标聚类方法


[0001]本专利技术涉及分布式粒子群优化和大数据产品指标聚类领域,主要涉及一种基于分布式聚类的大数据产品指标聚类方法。
技术背景
[0002]随着大数据时代的到来,各种以处理海量数据存储、计算以及不间断流数据实时计算等场景为主的一系列大数据产品应运而生,其中主要包括Hadoop系列、Spark、Hive、Flink以及Kafka等产品。它们利用计算机集群的存储和计算能力,解决大数据存储分析过程中的各种问题。
[0003]一般来说,大数据产品都是通过集群的部署方式来实现其高可用性以及高可扩展性。然而随着大数据产品的普及,如何方便快速的管理这些大数据产品成为了一个棘手的问题,即在这些产品运行时快速判断其运行状态是否良好,运行时参数推荐以及参数调优等,这都会涉及到大数据产品指标的聚类分析问题。然而这些运行指标都存储于本地计算机上,如何对这些存储于分布式节点上面的运行指标数据进行聚类分析成为了一个问题。传统的聚类算法是集中式的,即首先需要将所有的指标数据传输到一个中心节点上,然后对数据进行聚类分析。然而在实际的生产中,由于一些典型问题,例如数据隐私问题或者有限的传输带宽,这些数据无法发送到中心节点进行聚类。同时,大量的数据传输对于分布式节点的性能也有较大的损耗。分布式聚类是一系列旨在处理存储于分布式节点上的数据集的算法,它不用将所有数据都集中到一个中心节点就可以对数据进行聚类分析(Geng,Yangli

ao,et al.

Local

density subspace distributed clustering for high

dimensional data.

IEEE Transactions on Parallel and Distributed Systems 31.8(2020):1799

1814.)。基于分布式的架构,它可以有效提升算法的效率。然而目前的分布式聚类算法大都致力于解决算法运行时间的问题上面,却忽略了聚类算法的准确性的问题。
[0004]目前大部分的分布式聚类算法例如DK

means算法(Ji,Genlin,and Xiaohan Ling.

Ensemble learning based distributed clustering.

Pacific

Asia Conference on Knowledge Discovery and Data Mining.Springer,Berlin,Heidelberg,2007.)、DSCA算法(Visalakshi,N.Karthikeyani,and K.Thangavel.

Ensemble based distributed soft clustering.

2008International Conference on Computing,Communication and Networking.IEEE,2008.)以及PSDK

Means算法(Kotary,Dinesh Kumar,and Satyasai Jagannath Nandal.

A point symmetry distance based k

means algorithm for distributed clustering in peer to peer networks.

2019IEEE International Conference on Systems,Man andCybernetics(SMC).IEEE,2019.)都是基于传统的聚类算法例如K

means或者Fuzzy

C

Means算法的改进。在一定程度上会受到传统算法的限制,因此其准确性不够。粒子群优化算法的搜索能力强,具有自组织、自适应、自学习高鲁棒性的特性。它能够不受问题性质的限制,有效地处理传统优化算法难以解决的复杂问题,但是却忽略了算法准确性的这个同样重要的因素。在传统的分布式聚类算法中,将子节点的数据
处理过程视为对本地数据的聚类,然后在主节点对所有子节点的聚类结果进行整合以获取最终的聚类结果(Tong,Qiuhui,Xiu Li,and Bo Yuan.

Efficient distributed clustering using boundary information.

Neurocomputing 275(2018):2355

2366.)。
[0005]粒子群优化算法是进化计算中的一个分支。它是一种模拟自然界中鸟群和鱼群捕食的随机搜索算法。粒子群算法由于其定义清晰,简单实用,自提出以来就得到了广泛的应用,例如动态分配、医学图形配准、机器学习与训练、数据挖掘与分类和信号控制等各领域。为了解决传统分布式聚类算法准确性不足的问题,引入分布式的粒子群优化算法,用于优化聚类结果。在分布式架构的基础之上,保证算法效率的同时,粒子群优化算法用于提升聚类的准确性。因此分布式的粒子群优化算法十分适合于大数据产品指标的分布式聚类中。

技术实现思路

[0006]为了解决上述存在的问题,本专利技术提出一种基于分布式聚类的大数据产品指标聚类方法,将分布式粒子群优化算法运用到分布式聚类中,并使用该方法对大数据产品指标进行分布式聚类分析。而且大数据产品作为处理海量数据存储、计算以及不间断流数据实时计算等场景为主的一套基础设施,其应用越来越广泛。本专利技术将分布式的粒子群优化算法运用到大数据产品的指标聚类中,主要涉及分布式粒子群优化与大数据产品指标聚类。专利技术的方法将整个聚类的过程分为两个部分。第一步,所有子节点使用基于粒子群优化的聚类算法来处理其本地指标数据,然后将聚类结果发送到主节点。第二步,主节点在收到所有子节点发送而来的聚类结果之后,将它们整合为一个数据集,然后使用K

means算法处理该数据集以得到全局聚类结果。
[0007]本专利技术至少通过如下技术方案之一实现。
[0008]一种基于分布式聚类的大数据产品指标聚类方法,包括以下步骤:
[0009](1)每个子节点读取本地的指标数据集Z,随机从指标数据集Z中挑选出N
c
个数据点,将选出的数据点作为候选的聚类中心点M;
[0010](2)初始化每个粒子的速度和位置,并计算出每个粒子的适应度;
[0011](3)迭代更新粒子的速度和位置;
[0012](4)判断是否达到终止条件,如果没有达到终止条件,则返回到步骤(3)继续迭代;如果达到终止条件,则执行步骤(5);
[0013](5)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,包括以下步骤:(1)每个子节点读取本地的指标数据集Z,随机从指标数据集Z中挑选出N
c
个数据点,将选出的数据点作为候选的聚类中心点M;(2)初始化每个粒子的速度和位置,并计算出每个粒子的适应度;(3)迭代更新粒子的速度和位置;(4)判断是否达到终止条件,如果没有达到终止条件,则返回到步骤(3)继续迭代;如果达到终止条件,则执行步骤(5);(5)当达到终止条件时,二进制的粒子群从原始的数据集中挑选出候选点作为聚类中心点,使用K

means算法细化挑选出的候选点,细化之后的数据集记为M
t
;(6)在进行细化之后,随机的从指标数据集Z中挑选出若干数据点,记为M
r
,用来补全候选数据集;(7)判断是否达到终止条件,如果是,则执行步骤(8),否则返回步骤(2);(8)将K

means算法细化之后的聚类结果通过网络通信发送至主节点;(9)主节点将接收到的聚类中心点整合为一个数据集,并进行处理后全局聚类结果。2.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,随机初始化二进制粒子群的位置:其中r
k
是一个随机数,它服从一个0到1的均匀分布,即r
k
~U(0,1);p
ini
是一个用户自定义的参数,其中p
ik
(t)表示第t个粒子的最终位置。3.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,适应度函数定义为:f(p
i
)=index(p
i
)其中f(p
i
)表示粒子的适应度,p
i
表示第i个粒子。4.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,在粒子位置更新的过程中,根据公式来更新粒子的位置:sig(x)=1/(1+e

x
)其中,参数r
j
服从一个均匀分布r
j
~U(0,1),sig(x)是一个激活函数,x是函数的输入值。5.根据权利要求1所述的一种基于分布式聚类的大数据产品指标聚类方法,其特征在于,粒子速度的更新公式如下:v
ik
(t+1)=wv
ik
(t)+c1r1(l
ik

p
ik
)+c2r2(g
ik...

【专利技术属性】
技术研发人员:陈伟能李子星
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1