一种基于改进初始质心选择的K均值聚类方法技术

技术编号：36524853 阅读：16 留言：0更新日期：2023-02-01 16:03

本发明专利技术揭示了一种基于改进初始质心选择的K均值聚类方法，包括如下步骤：样本数据中选择K个点作为初始质心，并分成固定质心集A和活动质心集B；固定其中一个初始质心M1到A中，并计算其余初始质心到M1的距离，并将距离最大的初始质心M2固定到A中；计算其余初始质心到M1和M2的距离和，并将距离和最大的初始质心M3固定到固定到A中，以此类推，将所有的初始质心固定到A中；计算每个样本到各个质心的距离，将样本划分到距离最近的质心所对应的簇中；计算每个簇内所有样本的均值，并更新簇的质心，直至达到阈值条件。本发明专利技术通过重置初始质心以及调用存储数据进行质心的迭代，大大提高了K值聚类算法的迭代效率。类算法的迭代效率。类算法的迭代效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进初始质心选择的K均值聚类方法

[0001]本专利技术涉及聚类算法领域，特别是涉及一种基于改进初始质心选择的K均值聚类方法。

技术介绍

[0002]在无监督学习中，K均值聚类是一种常用的分类算法，算法会将数据集分为K个簇，实现对样本的分类。K均值聚类算法大致流程如下：
[0003]1.从样本中选择K个点作为初始质心(完全随机)；
[0004]2.计算每个样本到各个质心的距离，将样本划分到距离最近的质心所对应的簇中；
[0005]3.计算每个簇内所有样本的均值，并使用该均值更新簇的质心；
[0006]4.重复步骤2与3，直到达到以下条件之一：
[0007]质心的位置变化小于指定的阈值(默认为0.0001)；
[0008]达到最大迭代次数。
[0009]然而，算法很容易受初始质心的影响，初始质心选择的不恰当，会影响算法的效率。
[0010]因此，亟需提出一种基于改进初始质心选择的K均值聚类方法，以解决上述问题。

技术实现思路

[0011]本专利技术的目的在于，提供一种基于改进初始质心选择的K均值聚类方法，以提高K值聚类算法的迭代效率。
[0012]为解决上述技术问题，本专利技术提供一种基于改进初始质心选择的K均值聚类方法，包括如下步骤：
[0013]S1：样本数据中选择K个点作为初始质心；
[0014]S2：将初始质心分成固定质心集A和活动质心集B，固定质心集A为空集，活动质心集B包含所有初始质心；
...

【技术保护点】

【技术特征摘要】
1.一种基于改进初始质心选择的K均值聚类方法，其特征在于，包括如下步骤：S1：样本数据中选择K个点作为初始质心；S2：将初始质心分成固定质心集A和活动质心集B，固定质心集A为空集，活动质心集B包含所有初始质心；S3：固定其中一个初始质心M1到固定质心集A中，并计算其余K
‑
1个初始质心到M1的距离，并将距离最大的初始质心M2固定到固定质心集A中；S4：计算其余K
‑
2个初始质心到M1和M2的距离和，并将距离和最大的初始质心M3固定到固定到固定质心集A中，以此类推，将所有的初始质心固定到固定质心集A中；S5：计算每个样本到各个质心的距离，将样本划分到距离最近的质心所对应的簇中；S6：计算...

【专利技术属性】
技术研发人员：刘利非，杨吉利，朱剑，
申请(专利权)人：上海锡鼎智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人