【技术实现步骤摘要】
一种DPC聚类算法的改进方法
[0001]本专利技术涉及数据分析与挖掘
,尤其涉及一种DPC聚类算法的改进方法。
技术介绍
[0002]聚类分析作为近几年热门研究领域,涉及数据挖掘、模式识别、机器学习、数据分析等众多学科,随着科技的发展,目前已步入大数据的时代,数据中包含的信息具有很高的价值。聚类分析仅通过描述对象和其关系的数据信息,期望将对象划分为多个组,使得组内对象相似,组间对象不同。
[0003]聚类本质是聚集出一组簇,这组簇通常包含数据集中的所有对象(某些算法会识别出噪声,一般认为噪声属于噪声簇)。此外,它也可以指定簇彼此之间的关系,例如,在彼此中相互嵌入的簇的层次结构。按照簇模型列举有以下几种比较著名的聚类方法:1)基于连通性的簇模型,对应于层次聚类:层次聚类算法时间复杂度高。2)基于质心的簇模型,对应于划分聚类:一般划分聚类算法都存在聚类数目k难以确定,初始中心点难以选择的问题。3)基于分布的簇模型,对应于模型聚类:基尽管这些方法的理论基础非常优秀,但是此类算法通常容易过拟合。4)基于网格的簇模型, ...
【技术保护点】
【技术特征摘要】
1.一种DPC聚类算法的改进方法,其特征在于,包括:S1通过均值距离与截断中心,选取初始聚类中心;S2、采用K
‑
Means的分配策略,根据所有数据点到每个初始聚类中心的欧式距离进行分簇;S3、更新簇中心,进行中心偏移,对所有数据点重新分配归属,反复操作;当新旧簇中心两点间的欧氏距离小于设定值时,停止更新聚类中心,并把上一次的聚类结果作为最终聚类结果;S4、判断更新聚类中心后得簇和簇之间,是否需要进行中心融合;若需要进行中心融合,则采用迭代融合法的思想进行中心融合,得到新的聚类结果;若不需要,则采用S3中的最终聚类结果。2.根据权利要求1所述一种DPC聚类算法的改进方法,其特征在于,S3中所述不断更新簇中心,包括:采用K
‑
Means更新聚类中心的策略,计算每个簇内所有数据点的平均值,作为当前簇的新簇中心。3.根据权利要求1所述一种DPC聚类算法的改进方法,其特征在于,S3中所述对所有数据点重新分配归属,包括:根据新聚类中心,对数据点重新分配归属;采用K
‑
Means的分配策略,计算所有数据点到每个新聚类中心的距离,根据所述距离重新对数据点分簇。4.根据权利要求1所述一种DPC聚类算法的改进方法,其特征在于,S4中所述中心融合包括:S511、遍历所有簇心,两两判定是否融合,遇到需要融合的两簇就停止判定,并返回需要融合的两个簇心;S512、求两簇心的密度,将两簇心中密度较大的簇心的标签作为融合簇标签,返回簇融合之后的标签分配结果;S513、重新将数据集和标签进行绑定,进行打标签操作;求出簇标签相同的点的均值中心作为融合簇心;S514、返回融合后的新簇心集合;S515、根据得到新簇心迭代进行两两簇心融合,直到新簇心不能再融合,中心融合结束。5.根据权利要求4所述一种DPC聚类算法的改进方法,其特征在于,所述判断簇和簇之间是否需要进行中心融合,包括:S521、以两个簇心之间的直线距离为直径,两个簇心直线距离的中点为圆心作圆,找出圆里分别属于两个簇的数据点;S522、找出成对的伪核心数据点,其具体步骤为:计算圆里分别属于两个簇的数据点之间的距离,找出两数据点之间距离小于截断半径的成对点,即成对的伪核心数据点;若无成对的伪核心数据点,则两个簇不能融合;所述截断半径d
c
的计算公式为:d
c
=maxDist*distPercent/100
ꢀꢀꢀꢀ
(1)其中,distList表示距离向量;distPercent表示截断百分比,distPercent的选取根据
...
【专利技术属性】
技术研发人员:伊卫国,严羚玮,宋旭东,宋亮,苏浩田,万晓慧,
申请(专利权)人:大连交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。