基于自然邻居扩散的密度峰值聚类方法技术

技术编号:30018130 阅读:17 留言:0更新日期:2021-09-11 06:31
本发明专利技术涉及一种基于自然邻居扩散的密度峰值聚类方法,旨在解决传统DPC聚类方法需要手动选取聚类中心且无法处理复杂流行数据集的缺点,传统的DPC聚类方法通过决策图手动获取数据集的聚类中心点,将非聚类中心点分配到其最近聚类中心点所属的类簇中,导致聚类精度不高,不能够满足实际应用的需求。针对此问题,本文引入了自然邻居的思想,通过样本点的自然邻居扩散自动选取聚类中心点,并基于自然邻居以及簇归属度对非聚类中心点进行聚类。本发明专利技术方法能自动选取聚类中心点,并获得理想的聚类结果,且在处理复杂流行数据集上优势较大。且在处理复杂流行数据集上优势较大。

【技术实现步骤摘要】
基于自然邻居扩散的密度峰值聚类方法
技术邻域
[0001]本专利技术涉及聚类算法,具体涉及一种基于自然邻居扩散的密度峰值聚类方法。

技术介绍

[0002]随着计算机技术与网络技术的快速发展,人类社会已然从传统的互联网步入移动互联、大数据时代。最近几年来,随着移动端应用程序使用量的呈井喷式增长以及数据库系统的成熟,人类社会每天产生的数据出现了指数级的增长。数据的不确定性以及来源的多样性使得传统的数据分析技术越来越难以在庞大的数据中发现其中的关系和规则,也无法根据已有的数据预测未来的发展趋势。人们迫切需要挖掘数据背后隐藏信息的技术手段,由此大数据技术应运而生。数据挖掘技术是现代大数据分析的核心技术之一。
[0003]聚类分析简称聚类,是数据挖掘的重要技术之一。聚类分析技术被广泛应用于其他行业,例如从船舶AIS数据中挖掘出相关的行为模式辅助水上安全监管、对水电机组进行振动故障诊断、分析客户需求完善产品服务方案、新型冠状病毒肺炎证候特点分析等。
[0004]自聚类分析技术出现以来,学者们提出了大量的聚类算法。现有的聚类算法大致分为基于划分的聚类方法、基于密度的聚类方法、基于层次的聚类方法、基于网格的聚类方法以及基于模型的聚类方法。基于密度的聚类算法认为,高密度点被低密度点所环绕,DBSCAN是一种经典的基于密度的聚类算法。基于划分的聚类算法通过不断迭代来最小化代价函数的方法来得到数据集的最优划分,K

Means算法和K

Medoids算法是经典的基于划分的聚类算法。基于层次的聚类算法通过计算不同类别样本点间的相似度来创建一棵有层次的嵌套聚类树,创建聚类树有自下而上合并和自上而下分裂两种方法,CURE算法与Chameleon算法是经典的基于层次的聚类算法。基于网格聚类算法通常基于某种规则来将多维数据空间划分为多个网格,将数据集中的数据对象映射到有限的网格单元中,最后根据每个网格单元中的数据信息来进行聚类,Sting算法、CLIQUE和WaveCluster是经典的基于层次的聚类算法。基于模型的聚类算法为每一个类簇构建模型,将满足该模型的数据聚类为一个簇,该类算法可以分为基于概率模型和基于神经网络的算法,代表算法有COBWEB算法SOM算法。
[0005]密度峰值聚类算法(Density by Clustering and find of density peaks)是Rodriguez等人于2014在《Science》上提出的一种新的基于密度的聚类算法。DPC算法基于两个假设:1)聚类中心被局部密度较低的近邻点包围;2)任意聚类中心与比它局部密度更高的样本点之间的距离较大。
[0006]原始DPC算法的问题:对于截断距离敏感,无法自动确定聚类中心,无法处理非球形簇,面对结构复杂的数据集会出现数据点连锁错分问题。

技术实现思路

[0007]为了解决上述
技术介绍
中存在的问题,本专利技术提供一种基于自然邻居扩散的密度峰值聚类方法。首先基于局部密度公式和斥群值公式计算数据集中点的局部密度ρ和斥群
值δ,其次根据局部密度ρ和斥群值δ计算数据点的聚类中心评价指标,然后通过自然邻居扩散找到聚类中心点,最后分配非聚类中心点。
[0008]基于自然邻居的密度峰值聚类方法,包括:
[0009]步骤1、计算数据集中所有样本点的局部密度ρ和斥群值δ;
[0010]步骤2、计算数据集中所有样本点的聚类中心评价指标γ;
[0011]步骤3、将数据集按照γ值降序排列;
[0012]步骤4、选取数据集中γ值最大且未标记的数据点加入聚类中心集合,从该点开始自然邻居扩散,并标记所有访问过的点;
[0013]步骤5、重复步骤“选取数据集中γ值最大且未标记的数据点加入聚类中心集合,从该点开始进行自然邻居扩散,并标记所有访问访问到的点”,直到数据集中所有点都被标记;
[0014]步骤6、以斥群值均值为分界线,将数据集中所有非聚类中心点划分为低斥群值点集合和高斥群值点集合;
[0015]步骤7、随机从聚类中心集合中取出一个聚类中心点,进行自然邻居扩散,将所有访问到的低斥群值点加入到该聚类中心所属类簇中;
[0016]步骤8、重复“随机从聚类中心集合中取出一个聚类中心点,进行自然邻居扩散,将所有访问到的低斥群值点加入到该聚类中心所属类簇中”,直到聚类中心集合为空;
[0017]步骤9、统计高斥群值点的自然邻居的簇归属度,将该点划分到最高簇归属度所对应的簇中;
[0018]步骤10、将剩余点划分到其最近邻点所属的类簇中。
[0019]本专利技术具有以下优点:
[0020](1)本方法能自动确定数据集的聚类中心。
[0021](2)本方法基于自然邻居扩散的分配策略能有效解决由于样本点错误分配导致的连锁错分问题。
附图说明
[0022]图1是本专利技术基于自然邻居扩散的密度峰值聚类方法的流程图。
具体实施方式
[0023]下面将结合本专利技术实施的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实例仅仅是本专利技术一部分实施例子,而不是全部实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]如图1所示,本专利技术提供了一种基于自然邻居扩散的密度峰值聚类方法,其基本实现过程如下:
[0025]步骤1、输入数据集截断距离d
c

[0026]计算得到数据集中点x
i
的局部密度ρ
i

[0027][0028]步骤2、计算得到数据集中点x
i
的局部密度δ
i

[0029][0030]步骤3、计算得到数据集中点x
i
聚类中心评价指标γ
i

[0031]γ
i
=ρ
i
×
δ
i

[0032]步骤4、将数据集按照γ
i
降序排列;
[0033]步骤5、选取数据集中γ值最大且未标记的数据点c
i
加入集合Centroids,从点c
i
开始进行自然邻居扩散,并标记所有访过的点;
[0034]步骤6、重复步骤5,直到数据集中所有的点都被标记;
[0035]步骤7、计算数据集中所有点的斥群值的均值δ
avg
,将斥群值大于δ
avg
的点加入高斥群值点集合high
δ
中,将斥群值小与等于δ
avg
的点加入低斥群值点集合low
δ
中;
[0036]步骤8、随机从Centroids中取出一个聚类中心点,进行自然邻居扩散,将所有访问过的低斥群值点划分到该聚类中心所属类簇中;
[0037]步骤9、重复步骤8,直到聚类中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然邻居扩散的密度峰值聚类方法,其特征在于,包括以下步骤:步骤1、计算数据集D中的所有样本点的局部密度,点x
i
的局部密度ρ
i
公式为:其中,n是样本点个数,d
ij
是样本点x
i
和x
j
之间的欧式距离,χ(x)是指示函数,当x<0时,χ(x)=1,否则χ(x)=0,d
c
是截断距离;步骤2、计算所有样本点的斥群值,δ
i
则是计算点x
i
与其他更高局部密度点的最近距离,点x
i
的斥群值δ
i
计算公式为:其中,d
ij
是点x
i
和x
j
的欧式距离;步骤3、选取样本点x
i
的自然邻居,样本点x
i
,x
j
∈D,点x
i
属于点x
j
的k

近邻,点x
j
属于点x
i
的k

近邻,那么点x
i
和点x
j
互为自然邻居,具体定义如下:NNN(i)={j|x
i
∈KNN(x
j
)∩x
j
∈KNN(x
i
)}其中,KNN(x
i
)是样本点x
i
的k

近邻;步骤4、计算数据集D中样本点x
i
的聚类中心评价指标γ
i
,点x
i
的...

【专利技术属性】
技术研发人员:杨海波何云斌张爽
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1