一种自适应多均值两步聚类方法技术

技术编号:33353627 阅读:52 留言:0更新日期:2022-05-08 10:04
本发明专利技术涉及一种自适应多均值两步聚类方法,该方法对于输入的数据,第一步采用基于混沌量子粒子群的多均值聚类算法进行初步聚类,第二步采用自适应层次聚类算法在第一步聚类结果基础上进行进一步聚类,得到最终聚类结果;该方法既可用于簇状分布数据聚类,也可用于非簇状数据聚类,具有运算速度快、复杂度低、适用范围广、受异常值影响小的优点。本发明专利技术可以作为数据处理的基础技术,可用于系统建模、模式识别、机器学习、数据挖掘等领域的数据处理工作。理工作。

【技术实现步骤摘要】
一种自适应多均值两步聚类方法


[0001]本专利技术涉及一种自适应多均值两步聚类方法,属于数据聚类


技术介绍

[0002]数据聚类方法主要可以分为基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法等。
[0003]基于划分的聚类方法按照“类内数据点相似性足够高,类间数据点相似性足够低”的原则进行划分,经典的K

means算法就是典型的基于划分的聚类算法。K

means算法具有简单实用的优点。但其也存在“聚类个数k需要人为指定、初始的聚类中心选取对聚类结果影响大、对异常值敏感、无法处理非簇状分布数据聚类”的缺点。
[0004]基于层次的聚类方法分为合并的层次聚类和分裂的层次聚类两种。以基于合并的层次聚类为例,该方法通过自下而上的方式不断合并相似度高的聚类来得到更高级别的聚类,当达到某个剩余类别或其他终值条件时停止聚类。该算法具有可解释性好的优点。但也存在算法复杂度高、对异常值敏感的缺点。

技术实现思路

[0005]本专利技术为了解决现有技术中存在的问题,提供本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自适应多均值两步聚类方法,其特征在于,包括如下步骤:步骤一、采用基于混沌量子粒子群的多均值聚类算法对待聚类数据集进行初步聚类;1.1、初始化聚类半径C
r
和容许偏离度C
d
,随机选择一个数据X
i
作为初始的分类,并确定分类的质心,并利用基于混沌量子粒子群的方法对聚类半径C
r
和容许偏离度C
d
进行整定;1.2、从待聚类数据集中按顺序取出一个待聚类数据X
i
,计算X
i
与各质心的距离,并对X
i
进行聚类;1.3、根据步骤1.2中的聚类结果对发生改变的分类更新质心;1.4、重复步骤1.2和1.3直至所有数据完成聚类;1.5、从数据集中按顺序取出数据X
i
,计算X
i
与各质心的距离,根据距离和聚类条件对X
i
的分类结果进行修正;1.6、如果若X
i
的分类结果发生改变,跳到步骤1.7执行;否则跳到步骤1.8执行;1.7、对发生改变的分类更新质心;1.8、若聚类结果收敛,则结束;否则跳到1.5继续更新;步骤二、对步骤一得到的各分类数据集的质心通过自适应层次聚类算法进行二次聚类;2.1、将每一个质心作为一个类簇,计算各类簇...

【专利技术属性】
技术研发人员:董泽姜炜董贺宁常修全
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1