【技术实现步骤摘要】
一种自适应多均值两步聚类方法
[0001]本专利技术涉及一种自适应多均值两步聚类方法,属于数据聚类
技术介绍
[0002]数据聚类方法主要可以分为基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法等。
[0003]基于划分的聚类方法按照“类内数据点相似性足够高,类间数据点相似性足够低”的原则进行划分,经典的K
‑
means算法就是典型的基于划分的聚类算法。K
‑
means算法具有简单实用的优点。但其也存在“聚类个数k需要人为指定、初始的聚类中心选取对聚类结果影响大、对异常值敏感、无法处理非簇状分布数据聚类”的缺点。
[0004]基于层次的聚类方法分为合并的层次聚类和分裂的层次聚类两种。以基于合并的层次聚类为例,该方法通过自下而上的方式不断合并相似度高的聚类来得到更高级别的聚类,当达到某个剩余类别或其他终值条件时停止聚类。该算法具有可解释性好的优点。但也存在算法复杂度高、对异常值敏感的缺点。
技术实现思路
[0005]本专利技术为了解决现有技 ...
【技术保护点】
【技术特征摘要】
1.一种自适应多均值两步聚类方法,其特征在于,包括如下步骤:步骤一、采用基于混沌量子粒子群的多均值聚类算法对待聚类数据集进行初步聚类;1.1、初始化聚类半径C
r
和容许偏离度C
d
,随机选择一个数据X
i
作为初始的分类,并确定分类的质心,并利用基于混沌量子粒子群的方法对聚类半径C
r
和容许偏离度C
d
进行整定;1.2、从待聚类数据集中按顺序取出一个待聚类数据X
i
,计算X
i
与各质心的距离,并对X
i
进行聚类;1.3、根据步骤1.2中的聚类结果对发生改变的分类更新质心;1.4、重复步骤1.2和1.3直至所有数据完成聚类;1.5、从数据集中按顺序取出数据X
i
,计算X
i
与各质心的距离,根据距离和聚类条件对X
i
的分类结果进行修正;1.6、如果若X
i
的分类结果发生改变,跳到步骤1.7执行;否则跳到步骤1.8执行;1.7、对发生改变的分类更新质心;1.8、若聚类结果收敛,则结束;否则跳到1.5继续更新;步骤二、对步骤一得到的各分类数据集的质心通过自适应层次聚类算法进行二次聚类;2.1、将每一个质心作为一个类簇,计算各类簇...
【专利技术属性】
技术研发人员:董泽,姜炜,董贺宁,常修全,
申请(专利权)人:华北电力大学保定,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。