【技术实现步骤摘要】
基于改进型K均值聚类算法的样本分类方法
本专利技术涉及机器学习
,特别提供了一种基于改进型K均值聚类算法的样本分类方法。
技术介绍
样本分类通常采用K均值聚类算法,过程如下,首先,随机选取K个样本作为质心,然后,计算每个样本与各个质心的距离,并把每个样本分配给距离它最近的质心,最终形成K个样本簇,之后,根据每个样本簇中现有的对象重新确定质心,直至满足终止条件。现有的K均值聚类算法在图像处理、模式识别中应用广泛,但是,因为初始质心是随机选取的,聚类速度慢。因此,提出一种新型的样本分类方法,以提高聚类速度,成为人们亟待解决的问题。
技术实现思路
鉴于此,本专利技术的目的在于提供一种基于改进型K均值聚类算法的样本分类方法,以解决传统的样本分类方法的分类速度慢的问题。本专利技术提供了一种基于改进型K均值聚类算法的样本分类方法,包括:S1:获取所有待分类的样本,形成样本数据集X;S2:从样本数据集X中初步选定K个质心,其中,K为聚类数量,具体包括:S21:对样本数据集X中的所有样本进行均值计算,得到样本中心;S22:分别计算样本数据集X中的每个样本与样本中心的距离,并将距离样本中心的距离最大的样本选定为第一个质心;分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离,并将距离第一个质心的距离最大的样本选定为第二个质心;第n个质心的计算方法如下,其中,2<n<=K:分别计算样本数据集X中除前n-1个质 ...
【技术保护点】
1.基于改进型K均值聚类算法的样本分类方法,其特征在于,包括:/nS1:获取所有待分类的样本,形成样本数据集X;/nS2:从样本数据集X中初步选定K个质心,其中,K为聚类数量,具体包括:/nS21:对样本数据集X中的所有样本进行均值计算,得到样本中心;/nS22:分别计算样本数据集X中的每个样本与样本中心的距离,并将距离样本中心的距离最大的样本选定为第一个质心;/n分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离,并将距离第一个质心的距离最大的样本选定为第二个质心;/n第n个质心的计算方法如下,其中,2<n<=K:/n分别计算样本数据集X中除前n-1个质心以外的每个样本与选定的前n-1个质心的距离,并将距离前n-1个质心的距离和最大的样本选定为第n个质心;/nS3:依次将每个样本与距其最近的质心归至一类,形成K个样本簇;/nS4:对每个样本簇进行均值计算,得到每个样本簇的质心,并以此更新已选定的K个质心,其中,每个样本簇的质心均为样本数据集X中的样本;/nS5:重复S3和S4,直至质心不再变化,并获得K个样本簇,完成样本的分类。/n
【技术特征摘要】
1.基于改进型K均值聚类算法的样本分类方法,其特征在于,包括:
S1:获取所有待分类的样本,形成样本数据集X;
S2:从样本数据集X中初步选定K个质心,其中,K为聚类数量,具体包括:
S21:对样本数据集X中的所有样本进行均值计算,得到样本中心;
S22:分别计算样本数据集X中的每个样本与样本中心的距离,并将距离样本中心的距离最大的样本选定为第一个质心;
分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离,并将距离第一个质心的距离最大的样本选定为第二个质心;
第n个质心的计算方法如下,其中,2<n<=K:
分别计算样本数据集X中除前n-1个质心以外的每个样本与选定的前n-1个质心的距离,并将距离前n-1个质心的距离和最大的样本选定为第n个质心;
S3...
【专利技术属性】
技术研发人员:马胤刚,蒋辉,张冠男,张晓凡,
申请(专利权)人:沈阳天眼智云信息科技有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。