一种均衡聚类方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:38986851 阅读:10 留言:0更新日期:2023-10-07 10:17
本发明专利技术公开了一种均衡聚类方法、装置、电子设备及计算机存储介质,方法包括步骤:从待聚类处理的样本集合中随机选择K个样本作为初始的K个聚类中心;从所述样本集合余下的样本中选择k个样本,采用改进的拍卖算法将所选k个样本分配到所述K个聚类中心中,完成一次拍卖分配流程;重复执行拍卖分配流程,直到完成所述样本集合中所有样本的分配。本发明专利技术可以适用于任何对聚类规模均衡化有要求的场合,且能够解决拍卖算法中容易出现多个样本竞争同一聚类中心的问题,没有分配冲突。没有分配冲突。没有分配冲突。

【技术实现步骤摘要】
一种均衡聚类方法、装置、电子设备及计算机存储介质


[0001]本专利技术涉及一种均衡聚类方法、装置、电子设备及计算机存储介质,基于改进的拍卖算法,可实现样本的均衡聚类。

技术介绍

[0002]通常的聚类算法产生的聚类经常是不平衡的,即不同聚类中所含样本的数量差异会很大。但是在许多聚类问题中,存在着问题域上的平衡先验以及数据收集过程中的平衡偏差。这就催生了均衡图分割问题:需要将给定图的顶点分割到k个几乎相等的聚类中。
[0003]k均值聚类算法(k

means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为k组,则随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每完成一次分配,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。
[0004]传统的k均值聚类算法,聚类结果各个聚类的规模通常是不一样的,在聚类中心数量即k的值确定的情况下,仅仅追求样本到聚类中心的距离最小,聚类后的簇与簇区别明显。但是对一些场合需要使聚类后的规模相当,传统的聚类方法则无法实现。

技术实现思路

[0005]技术目的:针对上述技术问题,本专利技术提出了一种均衡聚类方法、装置、电子设备及计算机存储介质,可以适用于任何对聚类规模均衡化有要求的场合。
[0006]技术方案:为实现上述技术目的,本专利技术采用了如下技术方案:
[0007]一种均衡聚类方法,其特征在于,包括步骤:
[0008]S1、从待聚类处理的样本集合中随机选择K个样本作为初始的K个聚类中心;
[0009]S2、从所述样本集合余下的样本中选择k个样本,k小于等于K,采用改进的拍卖算法将所选k个样本分配到所述K个聚类中心中,已分配的样本的价值置为0,完成一次拍卖分配流程;
[0010]S3、重复执行步骤S2,直到完成所述样本集合中所有样本的分配,得到K个聚类;
[0011]所述步骤S2中,一次拍卖分配流程包括:
[0012]S2.1、针对所选k个样本,计算每个样本到各个聚类中心的距离(d
ij
);
[0013]S2.2、根据所述距离(d
ij
),计算每个样本相对于各个聚类中心的价值(w
ij
);
[0014]S2.3、逐一从所选k个样本选取单个样本,执行步骤S2.31~步骤S2.33:
[0015]S2.31、初始化:初始化当前样本对各个聚类中心的出价(p
i
(0)),并存储;
[0016]S2.32、投标:根据当前样本相对于各个聚类中心的价值(w
ij
)和当前存储的样本的价格(p
i
(0);p
i
(τ)),计算当前样本对各个聚类中心的收益(profile
ij
),并确定收益最大的聚类中心进行报价,同时更新当前样本的价格(p
i
(τ+1))并存储;
[0017]S2.33、竞拍:判断步骤S2.32中确定的收益最大的聚类中心在本次拍卖分配流程
中是否已被本次所选k个样本中的其它样本拍走,若未被拍走,将当前样本分配给收益最大的聚类中心,竞拍成功;若已被拍走,即存在冲突样本,则返回冲突样本,重新投标分配。
[0018]优选地,所述步骤S2.33中,以如下公式更新样本的价格:
[0019]p
i
(τ+1)=(w
ij

p
i
(τ))

(w
kj

p
k
(τ))+ε+p
i
(τ)
[0020]其中,w
ij

p
i
(τ)表示第j个聚类中心t
j
中的最大收益;w
kj

p
k
(τ)表示第j个聚类中心t
j
中的次大收益;ε表示增长量;
[0021]p
i
(τ)表示第i个样本的第τ次迭代时的价格;p
k
(τ)表示第k个样本在第i个样本的第τ次迭代时的价格,u
i
、u
k
分别代表所述样本集合中的第i个样本、第k个样本;完成步骤S2.31至S2.33为一次迭代。
[0022]优选地,所述步骤S2.33中,当前样本与所述冲突样本进行竞拍,包括步骤:
[0023]分别计算当前样本与所述冲突样本相对所述收益最大的聚类中心的收益;
[0024]将当前样本与所述冲突样本中,收益较大的样本分配给所述进行报价,即,将收益较大的样本分配给所述收益最大的聚类中心,同时更新收益较大的样本的价格;
[0025]返回步骤S2.32,对当前样本与所述冲突样本两者中未分配聚类中心的样本重新投标。
[0026]优选地,所述步骤S2.2中,每个样本相对于各个聚类中心的价值表示为:
[0027]w
ij
=maxd
ij

d
ij
[0028]d
ij
表示样本集合中第i个样本u
i
到第j个聚类中心t
j
的距离,i=1,2,3,

,N,N表示样本集合中的样本数量,maxd
ij
是各个样本相对各个聚类中心的距离的最大值。
[0029]优选地,还包括:步骤S4、计算每个聚类的质心,若质心不发生变化或达到拍卖分配流程的最大次数,结束聚类流程。
[0030]一种均衡聚类装置,其特征在于,包括:
[0031]聚类中心确定模块,用于从待聚类处理的样本集合中随机选择K个样本作为初始的K个聚类中心;
[0032]拍卖分配模块,用于从所述样本集合余下的样本中选择k个样本,k小于等于K,采用改进的拍卖算法将所选k个样本分配到所述K个聚类中心中,已分配的样本的价值置为0,完成一次拍卖分配流程;
[0033]循环和输出模块,用于调用拍卖模块,直到完成所述样本集合中所有样本的分配,得到K个聚类。
[0034]一种电子设备,其特征在于:所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现所述方法。
[0035]一种计算机可读储存介质,其特征在于,所述计算机可读储存介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述方法。
[0036]有益效果:由于采用了上述技术方案,本专利技术具有如下有益效果:
[0037]本专利技术能够解决传统的k均值聚类算法存在的问题,而且能够解决拍卖算法中容易出现多个样本竞争同一聚类中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种均衡聚类方法,其特征在于,包括步骤:S1、从待聚类处理的样本集合中随机选择K个样本作为初始的K个聚类中心;S2、从所述样本集合余下的样本中选择k个样本,k小于等于K,采用改进的拍卖算法将所选k个样本分配到所述K个聚类中心中,已分配的样本的价值置为0,完成一次拍卖分配流程;S3、重复执行步骤S2,直到完成所述样本集合中所有样本的分配,得到K个聚类;所述步骤S2中,一次拍卖分配流程包括:S2.1、针对所选k个样本,计算每个样本到各个聚类中心的距离(d
ij
);S2.2、根据所述距离(d
ij
),计算每个样本相对于各个聚类中心的价值(w
ij
);S2.3、逐一从所选k个样本选取单个样本,执行步骤S2.31~步骤S2.33:S2.31、初始化:初始化当前样本对各个聚类中心的出价(p
i
(0)),并存储;S2.32、投标:根据当前样本相对于各个聚类中心的价值(w
ij
)和当前存储的样本的价格(p
i
(0);p
i
(τ)),计算当前样本对各个聚类中心的收益(profile
ij
),并确定收益最大的聚类中心进行报价,同时更新当前样本的价格(p
i
(τ+1))并存储;S2.33、竞拍:判断步骤S2.32中确定的收益最大的聚类中心在本次拍卖分配流程中是否已被本次所选k个样本中的其它样本拍走,若未被拍走,将当前样本分配给收益最大的聚类中心,竞拍成功;若已被拍走,即存在冲突样本,则返回冲突样本,重新投标分配。2.根据权利要求1所述的一种均衡聚类方法,其特征在于,所述步骤S2.32中,以如下公式更新样本的价格:p
i
(τ+1)=(w
ij

p
i
(τ))

(w
kj

p
k
(τ))+ε+p
i
(τ)其中,w
ij

p
i
(τ)表示第j个聚类中心t
j
中的最大收益;w
kj

p
k
(τ)表示第j个聚类中心t
j
中的次大收益;ε表示...

【专利技术属性】
技术研发人员:仲筱艳张勇
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1