基于自然最近邻和多簇合并的密度峰值聚类方法技术

技术编号:36076625 阅读:29 留言:0更新日期:2022-12-24 10:48
本发明专利技术提出了一种基于自然最近邻和多簇合并的密度峰值聚类方法,包括以下步骤:S1.基于自然最近邻重新定义DPC的局部密度,根据每个点的自然最近邻计算其局部密度并确定聚类中心;S2.通过基于共享最近邻和快速多聚类合并的两阶段分配策略,将剩余点分配到相应的簇中。本发明专利技术使用自然最近邻可以更自然和谐的体现每个点局部密度,且不需要手动设置K值。其次,本发明专利技术将不同的点细分并为其分配不同的权重,使得局部密度更加精确。最后,密度公式也加入全局信息,避免聚类中心的选择过分强调局部区域而导致聚类中心远离聚类中心区域而导致的聚类错误,具有优异的综合聚类性能。具有优异的综合聚类性能。具有优异的综合聚类性能。

【技术实现步骤摘要】
基于自然最近邻和多簇合并的密度峰值聚类方法


[0001]本专利技术涉及聚类分析的
,特别是一种基于自然最近邻和多簇合并的密度峰值聚类方法。

技术介绍

[0002]聚类分析是数据挖掘中的一项重要技术,并已广泛应用于许多领域。它将数据集依照一定的标准划分为不同的类或簇,使同一簇中的数据对象的相似性尽可能大,不同簇中的数据对象的差异尽可能大。根据聚类过程中处理方式的不同,聚类算法通常分为划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类等。
[0003]基于密度的聚类对不规则数据集有很好的聚类效果,可以容易找到任意形状的聚类。传统的基于密度的聚类算法包括DBSCAN、fast DBSCAN和OPTICS等。Rodr
í
guez等人在科学杂志上提出了密度峰值聚类算法(DPC)。DPC算法简单、高效、鲁棒,并且能够检测任意形状。但是,DPC主要有两个限制:1)应提前指定截断距离,局部密度公式的选择会影响聚类效果;2)聚类中心找到后,剩余点的分配策略可能会产生“多米诺骨牌效应”;也就是说,一旦一个点被本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自然最近邻和多簇合并的密度峰值聚类方法,其特征在于:包括以下步骤:S1.基于自然最近邻重新定义DPC的局部密度,根据每个点的自然最近邻计算其局部密度并确定聚类中心;S2.通过基于共享最近邻和快速多聚类合并的两阶段分配策略,将剩余点分配到相应的簇中。2.如权利要求1所述的一种基于自然最近邻和多簇合并的密度峰值聚类方法,其特征在于:步骤S1中,定义1自然最近邻:NNN(i)表示点x
i
的自然最近邻,具体如下:NNN(i)={x
j
∈D

x
j
∈NN
k
(i)&x
i
∈NN
k
(j),i≠j}其中,NN
r
(i)表示最接近x
i
的k个点;自然最近邻搜索算法的终止条件为:两次连续的迭代过程中,孤立点的个数不再发生变化,所述孤立点为没有自然邻居的点。3.如权利要求2所述的一种基于自然最近邻和多簇合并的密度峰值聚类方法,其特征在于:自然最近邻搜索算法的具体过程为:k=1开始,依次得到每个点的k个最近邻居,然后记录每个点在其他点的k最近邻居中出现的次数;让k=k+1,重复上一步操作,直到数据集中没有孤立点或孤立点的个数不在减少时结束,得到所有点的自然最近邻的集合。4.如权利要求1所述的一种基于自然最近邻和多簇合并的密度峰值聚类方法,其特征在于:步骤S1中,重新定义DPC的局部密度的具体方法为:定义2依赖邻居:DN(i)表示点x
i
的依赖邻居;它是点x
i
的最近邻但不是其自然最近邻的点集,如下所示:定义3局部密度:根据自然最近邻重新定义一个新的局部密度,如下所示:其中τ
i
是NNN(i)中依赖邻居的数量。5.如权利要求4所述的一种基于自然最近邻和多簇合并的密度峰值聚类方法,其特征在于:在得到所有点的局部密度(ρ)和相对距离(δ)后,以每个点x
i
的ρ
i
和δ
i
作为横纵坐标,构建二维决策图,然后选择具有较高的点ρ和δ作为聚类中心(cc);其中,相对距离δ
i
是指点x
i
与其最近且局部密度高于x
i
的点之间的距离。6.如权利要求2所述的一种基于自然最近邻和多簇合并的密度峰值聚类方法,其特征在于:步骤S2中,所述两阶段分配策略具体包括以下步骤:第一阶段:寻找潜在的集群中心并形成多个簇将远离其他密度峰值,并被局部密度低的点包围的这些点定义为潜在聚类中心(pcc):其中,w是密度权重,w∈[0.2,2];以潜在聚类中心...

【专利技术属性】
技术研发人员:王瑞琴马辉杨帅
申请(专利权)人:湖州师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1