基于改进型K均值聚类算法的样本分类方法技术

技术编号：27061383 阅读：30 留言：0更新日期：2021-01-15 14:41

本发明专利技术公开了一种基于改进型K均值聚类算法的样本分类方法，包括：获取所有待分类的样本，形成样本数据集X；根据距离初步选定K个质心；依次将每个样本与距其最近的质心归至一类，形成K个样本簇；对每个样本簇进行均值计算，得到每个样本簇的质心，并以此更新已选定的K个质心；重复上述步骤，直至质心不再变化，并获得K个样本簇，完成样本的分类。该基于改进型K均值聚类算法的样本分类方法，根据距离选定初始质心，相比原始的随机选择质心的方法，可以大大减少后续质心更新的次数，可有效提高分类的速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于改进型K均值聚类算法的样本分类方法
本专利技术涉及机器学习
，特别提供了一种基于改进型K均值聚类算法的样本分类方法。
技术介绍
样本分类通常采用K均值聚类算法，过程如下，首先，随机选取K个样本作为质心，然后，计算每个样本与各个质心的距离，并把每个样本分配给距离它最近的质心，最终形成K个样本簇，之后，根据每个样本簇中现有的对象重新确定质心，直至满足终止条件。现有的K均值聚类算法在图像处理、模式识别中应用广泛，但是，因为初始质心是随机选取的，聚类速度慢。因此，提出一种新型的样本分类方法，以提高聚类速度，成为人们亟待解决的问题。
技术实现思路
鉴于此，本专利技术的目的在于提供一种基于改进型K均值聚类算法的样本分类方法，以解决传统的样本分类方法的分类速度慢的问题。本专利技术提供了一种基于改进型K均值聚类算法的样本分类方法，包括：S1：获取所有待分类的样本，形成样本数据集X；S2：从样本数据集X中初步选定K个质心，其中，K为聚类数量，具体包括：S21：对样本数据集X中的所有样本进行均值计算，得到样本中心；S22：分别计算样本数据集X中的每个样本与样本中心的距离，并将距离样本中心的距离最大的样本选定为第一个质心；分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离，并将距离第一个质心的距离最大的样本选定为第二个质心；第n个质心的计算方法如下，其中，2<n<＝K：分别计算样本数据集X中除前n-1个质...

【技术保护点】
1.基于改进型K均值聚类算法的样本分类方法，其特征在于，包括：/nS1：获取所有待分类的样本，形成样本数据集X；/nS2：从样本数据集X中初步选定K个质心，其中，K为聚类数量，具体包括：/nS21：对样本数据集X中的所有样本进行均值计算，得到样本中心；/nS22：分别计算样本数据集X中的每个样本与样本中心的距离，并将距离样本中心的距离最大的样本选定为第一个质心；/n分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离，并将距离第一个质心的距离最大的样本选定为第二个质心；/n第n个质心的计算方法如下，其中，2<n<＝K：/n分别计算样本数据集X中除前n-1个质心以外的每个样本与选定的前n-1个质心的距离，并将距离前n-1个质心的距离和最大的样本选定为第n个质心；/nS3：依次将每个样本与距其最近的质心归至一类，形成K个样本簇；/nS4：对每个样本簇进行均值计算，得到每个样本簇的质心，并以此更新已选定的K个质心，其中，每个样本簇的质心均为样本数据集X中的样本；/nS5：重复S3和S4，直至质心不再变化，并获得K个样本簇，完成样本的分类。/n

【技术特征摘要】
1.基于改进型K均值聚类算法的样本分类方法，其特征在于，包括：
S1：获取所有待分类的样本，形成样本数据集X；
S2：从样本数据集X中初步选定K个质心，其中，K为聚类数量，具体包括：
S21：对样本数据集X中的所有样本进行均值计算，得到样本中心；
S22：分别计算样本数据集X中的每个样本与样本中心的距离，并将距离样本中心的距离最大的样本选定为第一个质心；
分别计算样本数据集X中除第一个质心以外的每个样本与选定的第一个质心的距离，并将距离第一个质心的距离最大的样本选定为第二个质心；
第n个质心的计算方法如下，其中，2<n<＝K：
分别计算样本数据集X中除前n-1个质心以外的每个样本与选定的前n-1个质心的距离，并将距离前n-1个质心的距离和最大的样本选定为第n个质心；
S3...

【专利技术属性】
技术研发人员：马胤刚，蒋辉，张冠男，张晓凡，
申请(专利权)人：沈阳天眼智云信息科技有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人