均值聚类方法及装置制造方法及图纸

技术编号:33915902 阅读:22 留言:0更新日期:2022-06-25 20:14
本申请提供一种均值聚类方法及装置,该均值聚类方法及装置可用于大数据领域,该均值聚类方法包括:获取第一数据集合,所述第一数据集合中包括N个样本数据;从N个样本数据中获取N1个样本数据,获得第二数据集合;从第二数据集合中,确定与第一样本数据的相似度大于或等于预设阈值的样本数据,所述第一样本数据包括从第二数据集合中随机选取的任意一个样本数据;将第一样本数据以及与第一样本数据的相似度大于或等于预设阈值的样本数据形成第一样本簇;将第一样本簇的中心值确定为第一初始质心;基于第一初始质心,将N个样本数据聚类成K类,所述K指示预设的聚类数量。本申请的均值聚类方法能够提升使用K均值聚类算法时的收敛速度。度。度。

【技术实现步骤摘要】
均值聚类方法及装置


[0001]本申请涉及机器学习
,尤其涉及一种均值聚类方法及装置。

技术介绍

[0002]K均值聚类算法是一种常用的样本分类方法。具体地,K均值聚类算法的过程如下:首先,随机选取K个样本作为质心,其中,K表示聚类数量;然后,计算每个样本数据与各个质心的距离,并把每个样本数据分配给距离最近的质心,最终形成以K个样本簇;之后,对于每个样本簇,基于该样本簇中包括的所有样本数据,重新确定质心,直至满足K均值聚类的终止条件。
[0003]然而,目前的K均值聚类算法是通过随机选取的方式来选取初始化阶段的质心。这样的话,就会导致初始值对K均值聚类算法的计算结果影响较大。在这种情况下,就可能会出现因随机选取的质心不好而导致使用K均值聚类算法时的收敛速度缓慢的问题。
[0004]因此,如何选取初始化阶段的质心,以提升使用K均值聚类算法时的收敛速度,成为亟待解决的技术问题。

技术实现思路

[0005]本申请提供一种均值聚类方法及装置,能够提升使用K均值聚类算法时的收敛速度。
[0006]第一方面,本本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种均值聚类方法,其特征在于,包括:获取第一数据集合,所述第一数据集合中包括N个样本数据,N为正整数;从所述N个样本数据中获取N1个样本数据,获得第二数据集合,N1小于或等于N;从所述第二数据集合中,确定与第一样本数据的相似度大于或等于预设阈值的样本数据,所述第一样本数据包括从所述第二数据集合中随机选取的任意一个样本数据;将所述第一样本数据以及与所述第一样本数据的相似度大于或等于预设阈值的样本数据形成第一样本簇;将所述第一样本簇的中心值确定为第一初始质心;基于所述第一初始质心,将所述N个样本数据聚类成K类,所述K指示预设的聚类数量。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一初始质心,将所述N个样本数据聚类成K类,包括:确定与第二样本数据的相似度大于或等于预设阈值的样本数据,所述第二样本数据为所述第二数据集中除所述第一样本簇包括的样本数据之外的且与所述第一初始质心的距离最大的样本数据;将所述第二样本数据以及所述第二数据集中除所述第一样本簇包括的样本数据之外的且与所述第二样本数据的相似度大于或等于预设阈值的样本数据形成第二样本簇;将所述第二样本簇的中心值确定为第二初始质心;相应地,基于所述第一初始质心,将所述N个样本数据聚类成K类,包括:基于所述第一初始质心和所述第二初始质心,将所述N个样本数据聚类成K类。3.根据权利要求2所述的方法,其特征在于,所述第一样本簇的中心值等于所述第一样本簇包括的所有样本的平均值。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一初始质心和所述第二初始质心,将所述N个样本数据聚类成K类,包括:对所述第二数据集执行如下处理以得到p个初始质心:删除已经确定好的前i

1个样本簇中每个样本簇包括的样本数据,以更新所述第二数据集合,所述前i

1个样本簇与已确定好的前i

1个初始质心一一对应;从更新后的第二数据集合中,计算每个数据样本与前i

1个初始质心的距离最小值,形成最小距离值集合;将所述更新后的第二数据集合中与所述最小距离值集合中的最大值对应的样本数据的相似度大于或等于所述预设阈值的样本数据归为第i个样本簇;将所述第i个样本簇的中心值确定为第i个初始质心并从所述第二数集合中删...

【专利技术属性】
技术研发人员:程永龙
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1