一种基于改进初始质心选择的K均值聚类方法技术

技术编号:36524853 阅读:16 留言:0更新日期:2023-02-01 16:03
本发明专利技术揭示了一种基于改进初始质心选择的K均值聚类方法,包括如下步骤:样本数据中选择K个点作为初始质心,并分成固定质心集A和活动质心集B;固定其中一个初始质心M1到A中,并计算其余初始质心到M1的距离,并将距离最大的初始质心M2固定到A中;计算其余初始质心到M1和M2的距离和,并将距离和最大的初始质心M3固定到固定到A中,以此类推,将所有的初始质心固定到A中;计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中;计算每个簇内所有样本的均值,并更新簇的质心,直至达到阈值条件。本发明专利技术通过重置初始质心以及调用存储数据进行质心的迭代,大大提高了K值聚类算法的迭代效率。类算法的迭代效率。类算法的迭代效率。

【技术实现步骤摘要】
一种基于改进初始质心选择的K均值聚类方法


[0001]本专利技术涉及聚类算法领域,特别是涉及一种基于改进初始质心选择的K均值聚类方法。

技术介绍

[0002]在无监督学习中,K均值聚类是一种常用的分类算法,算法会将数据集分为K个簇,实现对样本的分类。K均值聚类算法大致流程如下:
[0003]1.从样本中选择K个点作为初始质心(完全随机);
[0004]2.计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中;
[0005]3.计算每个簇内所有样本的均值,并使用该均值更新簇的质心;
[0006]4.重复步骤2与3,直到达到以下条件之一:
[0007]质心的位置变化小于指定的阈值(默认为0.0001);
[0008]达到最大迭代次数。
[0009]然而,算法很容易受初始质心的影响,初始质心选择的不恰当,会影响算法的效率。
[0010]因此,亟需提出一种基于改进初始质心选择的K均值聚类方法,以解决上述问题。

技术实现思路

[0011]本专利技术的目的在于,提供一种基于改进初始质心选择的K均值聚类方法,以提高K值聚类算法的迭代效率。
[0012]为解决上述技术问题,本专利技术提供一种基于改进初始质心选择的K均值聚类方法,包括如下步骤:
[0013]S1:样本数据中选择K个点作为初始质心;
[0014]S2:将初始质心分成固定质心集A和活动质心集B,固定质心集A为空集,活动质心集B包含所有初始质心;
[0015]S3:固定其中一个初始质心M1到固定质心集A中,并计算其余K

1个初始质心到M1的距离,并将距离最大的初始质心M2固定到固定质心集A中;
[0016]S4:计算其余K

2个初始质心到M1和M2的距离和,并将距离和最大的初始质心M3固定到固定到固定质心集A中,以此类推,将所有的初始质心固定到固定质心集A中;
[0017]S5:计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中;
[0018]S6:计算每个簇内所有样本的均值,并使用该均值更新簇的质心;
[0019]S7:重复步骤S5、S6,直至达到阈值条件。
[0020]进一步的,所述初始质心从样本数据中随机选择。
[0021]进一步的,在步骤S3、S4中,将初始质心之间的距离计算完成后进行保存。
[0022]进一步的,在步骤S4中,计算初始质心之间的距离时直接调用已保存的距离数据。
[0023]进一步的,所述阈值条件满足以下条件之一:
[0024]质心的位置变化小于指定的阈值0.0001;
[0025]达到最大迭代次数。
[0026]相比于现有技术,本专利技术至少具有以下有益效果:
[0027]本专利技术将初始质心分成两个集合,逐步将质心进行重置,避免了因初始质心选择过差导致更新簇的质心迭代次数增加的问题,从而提升了K值聚类算法的效率。
[0028]进一步的,本专利技术在重置初始质心时,选择距离(和)最远的点为质心,可以减少算法的迭代次数,同时对已经计算过的两质心距离进行储存,后续可以重复调用,减少计算量。
附图说明
[0029]图1为本专利技术基于改进初始质心选择的K均值聚类方法流程图。
具体实施方式
[0030]下面将结合示意图对本专利技术的基于改进初始质心选择的K均值聚类方法进行更详细的描述,其中表示了本专利技术的优选实施例,应该理解本领域技术人员可以修改在此描述的本专利技术,而仍然实现本专利技术的有利效果。因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本专利技术的限制。
[0031]在下列段落中参照附图以举例方式更具体地描述本专利技术。根据下面说明和权利要求书,本专利技术的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本专利技术实施例的目的。
[0032]如图1所示,本专利技术实施例提出了一种基于改进初始质心选择的K均值聚类方法,包括如下步骤:
[0033]S1:样本数据中选择K个点作为初始质心;
[0034]S2:将初始质心分成固定质心集A和活动质心集B,固定质心集A为空集,活动质心集B包含所有初始质心;
[0035]S3:固定其中一个初始质心M1到固定质心集A中,并计算其余K

1个初始质心到M1的距离,并将距离最大的初始质心M2固定到固定质心集A中;
[0036]S4:计算其余K

2个初始质心到M1和M2的距离和,并将距离和最大的初始质心M3固定到固定到固定质心集A中,以此类推,将所有的初始质心固定到固定质心集A中;
[0037]S5:计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中;
[0038]S6:计算每个簇内所有样本的均值,并使用该均值更新簇的质心;
[0039]S7:重复步骤S5、S6,直至达到阈值条件。
[0040]以下列举所述基于改进初始质心选择的K均值聚类方法的较优实施例,以清楚的说明本专利技术的内容,应当明确的是,本专利技术的内容并不限制于以下实施例,其他通过本领域普通技术人员的常规技术手段的改进亦在本专利技术的思想范围之内。
[0041]本专利技术提出了一种基于改进初始质心选择的K均值聚类方法,包括如下步骤:
[0042](1)样本数据中选择K个点作为初始质心,将初始质心分成固定质心集A和活动质心集B,固定质心集A为空集,活动质心集B包含所有初始质心。
[0043]具体的,从样本中完全随机选择K个点作为初始质心,并将初始质心分成两个集合:固定质心集A和活动质心集B。A为已经固定的质心的集合,B为未固定的质心的集合。初始时刻,集合A为空集,集合B为所有的初始质心。
[0044](2)固定其中一个初始质心M1到固定质心集A中,并计算其余K

1个初始质心到M1的距离,并将距离最大的初始质心M2固定到固定质心集A中;计算其余K

2个初始质心到M1和M2的距离和,并将距离和最大的初始质心M3固定到固定到固定质心集A中,以此类推,将所有的初始质心固定到固定质心集A中。
[0045]具体的,固定其中的一个质心记为M1,此时A={M1},分别计算其余(K

1)个质心到的距离,同时将距离储存起来,方便后续调用。选择其中距离M1最远的质心记为M2,此时固定M1,M2,A={M1,M2},接着分别计算其余(K

2)个质心到M1,M2的距离和,其中到M1的距离因为之前储存过了,直接调用即可。选择其中到M1,M2的距离和最大的质心记为M3,此时A={M1,M2,M3}重复以上步骤,直到所有质心都被固定,即A={M1,M2,M3,...,Mk}。此时,所有从初始质心已经被重置。
[0046](3)计算每个样本到各个质心本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进初始质心选择的K均值聚类方法,其特征在于,包括如下步骤:S1:样本数据中选择K个点作为初始质心;S2:将初始质心分成固定质心集A和活动质心集B,固定质心集A为空集,活动质心集B包含所有初始质心;S3:固定其中一个初始质心M1到固定质心集A中,并计算其余K

1个初始质心到M1的距离,并将距离最大的初始质心M2固定到固定质心集A中;S4:计算其余K

2个初始质心到M1和M2的距离和,并将距离和最大的初始质心M3固定到固定到固定质心集A中,以此类推,将所有的初始质心固定到固定质心集A中;S5:计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中;S6:计算...

【专利技术属性】
技术研发人员:刘利非杨吉利朱剑
申请(专利权)人:上海锡鼎智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1