基于改进型K均值聚类算法的样本分类方法技术

技术编号:27061383 阅读:30 留言:0更新日期:2021-01-15 14:41
本发明专利技术公开了一种基于改进型K均值聚类算法的样本分类方法,包括:获取所有待分类的样本,形成样本数据集X;根据距离初步选定K个质心;依次将每个样本与距其最近的质心归至一类,形成K个样本簇;对每个样本簇进行均值计算,得到每个样本簇的质心,并以此更新已选定的K个质心;重复上述步骤,直至质心不再变化,并获得K个样本簇,完成样本的分类。该基于改进型K均值聚类算法的样本分类方法,根据距离选定初始质心,相比原始的随机选择质心的方法,可以大大减少后续质心更新的次数,可有效提高分类的速度。

【技术实现步骤摘要】
基于改进型K均值聚类算法的样本分类方法
本专利技术涉及机器学习
,特别提供了一种基于改进型K均值聚类算法的样本分类方法。
技术介绍
样本分类通常采用K均值聚类算法,过程如下,首先,随机选取K个样本作为质心,然后,计算每个样本与各个质心的距离,并把每个样本分配给距离它最近的质心,最终形成K个样本簇,之后,根据每个样本簇中现有的对象重新确定质心,直至满足终止条件。现有的K均值聚类算法在图像处理、模式识别中应用广泛,但是,因为初始质心是随机选取的,聚类速度慢。因此,提出一种新型的样本分类方法,以提高聚类速度,成为人们亟待解决的问题。
技术实现思路
鉴于此,本专利技术的目的在于提供一种基于改进型K均值聚类算法的样本分类方法,以解决传统的样本分类方法的分类速度慢的问题。本专利技术提供了一种基于改进型K均值聚类算法的样本分类方法,包括:S1:获取所有待分类的样本,形成样本数据集X;S2:从样本数据集X中初步选定K个质心,其中,K为聚类数量,具体包括:S21:对样本数据集X中的所有样本进行均值计算,得到样本中心;S22:分别计算样本数据集X中的每个样本与样本中心的距离,并将距离样本中心的距离最大的样本选定为第一个质心;分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离,并将距离第一个质心的距离最大的样本选定为第二个质心;第n个质心的计算方法如下,其中,2<n<=K:分别计算样本数据集X中除前n-1个质心以外的每个样本与选定的前n-1个质心的距离,并将距离前n-1个质心的距离和最大的样本选定为第n个质心;S3:依次将每个样本与距其最近的质心归至一类,形成K个样本簇;S4:对每个样本簇进行均值计算,得到每个样本簇的质心,并以此更新已选定的K个质心,其中,每个样本簇的质心均为样本数据集X中的样本;S5:重复S3和S4,直至质心不再变化,并获得K个样本簇,完成样本的分类。优选,S4:对每个样本簇进行均值计算,得到每个样本簇的质心,并以此更新已选定的K个质心,其中,每个样本簇的质心均为样本数据集X中的样本,具体包括:S41:对每个样本簇进行均值计算,得到每个样本簇的中心;S42:依次在每个样本簇中,选定与该样本簇的中心距离最近的样本作为该样本簇的质心;S43:以S42中得到的K个样本簇的质心更新已选定的K个质心。本专利技术提供的基于改进型K均值聚类算法的样本分类方法,根据距离选定初始质心,相比原始的随机选择质心的方法,可以大大减少后续质心更新的次数,可有效提高分类的速度。具体实施方式下面将结合具体的实施方案对本专利技术进行进一步的解释,但并不局限本专利技术。本专利技术提供了一种基于改进型K均值聚类算法的样本分类方法,包括:S1:获取所有待分类的样本,形成样本数据集X;其中,样本数据集中存储每个样本的特征向量,通过对所述特征向量进行处理即可实现对样本的分类。S2:从样本数据集X中初步选定K个质心,其中,K为聚类数量,具体包括:S21:对样本数据集X中的所有样本进行均值计算,得到样本中心,其中,代表所述样本中心的向量不限于样本数据集X中的样本的特征向量;S22:分别计算样本数据集X中的每个样本与样本中心的距离,并将距离样本中心的距离最大的样本选定为第一个质心;分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离,并将距离第一个质心的距离最大的样本选定为第二个质心;第n个质心的计算方法如下,其中,2<n<=K:分别计算样本数据集X中除前n-1个质心以外的每个样本与选定的前n-1个质心的距离,并将距离前n-1个质心的距离和最大的样本选定为第n个质心;S3:依次将每个样本与距其最近的质心归至一类,形成K个样本簇;S4:对每个样本簇进行均值计算,得到每个样本簇的质心,并以此更新已选定的K个质心,其中,每个样本簇的质心均为样本数据集X中的样本;S5:重复S3和S4,直至质心不再变化,并获得K个样本簇,完成样本的分类。该基于改进型K均值聚类算法的样本分类方法,根据距离选定初始质心,相比原始的随机选择质心的方法,可以大大减少后续质心更新的次数,可有效提高分类的速度。其中,S4:对每个样本簇进行均值计算,得到每个样本簇的质心,并以此更新已选定的K个质心,其中,每个样本簇的质心均为样本数据集X中的样本,具体包括:S41:对每个样本簇进行均值计算,得到每个样本簇的中心;S42:依次在每个样本簇中,选定与该样本簇的中心距离最近的样本作为该样本簇的质心;S43:以S42中得到的K个样本簇的质心更新已选定的K个质心。本专利技术的具体实施方式是按照递进的方式进行撰写的,着重强调各个实施方案的不同之处,其相似部分可以相互参见。上面对本专利技术的实施方式做了详细说明,但是本专利技术并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本专利技术宗旨的前提下作出各种变化。本文档来自技高网...

【技术保护点】
1.基于改进型K均值聚类算法的样本分类方法,其特征在于,包括:/nS1:获取所有待分类的样本,形成样本数据集X;/nS2:从样本数据集X中初步选定K个质心,其中,K为聚类数量,具体包括:/nS21:对样本数据集X中的所有样本进行均值计算,得到样本中心;/nS22:分别计算样本数据集X中的每个样本与样本中心的距离,并将距离样本中心的距离最大的样本选定为第一个质心;/n分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离,并将距离第一个质心的距离最大的样本选定为第二个质心;/n第n个质心的计算方法如下,其中,2<n<=K:/n分别计算样本数据集X中除前n-1个质心以外的每个样本与选定的前n-1个质心的距离,并将距离前n-1个质心的距离和最大的样本选定为第n个质心;/nS3:依次将每个样本与距其最近的质心归至一类,形成K个样本簇;/nS4:对每个样本簇进行均值计算,得到每个样本簇的质心,并以此更新已选定的K个质心,其中,每个样本簇的质心均为样本数据集X中的样本;/nS5:重复S3和S4,直至质心不再变化,并获得K个样本簇,完成样本的分类。/n

【技术特征摘要】
1.基于改进型K均值聚类算法的样本分类方法,其特征在于,包括:
S1:获取所有待分类的样本,形成样本数据集X;
S2:从样本数据集X中初步选定K个质心,其中,K为聚类数量,具体包括:
S21:对样本数据集X中的所有样本进行均值计算,得到样本中心;
S22:分别计算样本数据集X中的每个样本与样本中心的距离,并将距离样本中心的距离最大的样本选定为第一个质心;
分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离,并将距离第一个质心的距离最大的样本选定为第二个质心;
第n个质心的计算方法如下,其中,2<n<=K:
分别计算样本数据集X中除前n-1个质心以外的每个样本与选定的前n-1个质心的距离,并将距离前n-1个质心的距离和最大的样本选定为第n个质心;
S3...

【专利技术属性】
技术研发人员:马胤刚蒋辉张冠男张晓凡
申请(专利权)人:沈阳天眼智云信息科技有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1