基于自然邻居扩散的密度峰值聚类方法技术

技术编号：30018130 阅读：17 留言：0更新日期：2021-09-11 06:31

本发明专利技术涉及一种基于自然邻居扩散的密度峰值聚类方法，旨在解决传统DPC聚类方法需要手动选取聚类中心且无法处理复杂流行数据集的缺点，传统的DPC聚类方法通过决策图手动获取数据集的聚类中心点，将非聚类中心点分配到其最近聚类中心点所属的类簇中，导致聚类精度不高，不能够满足实际应用的需求。针对此问题，本文引入了自然邻居的思想，通过样本点的自然邻居扩散自动选取聚类中心点，并基于自然邻居以及簇归属度对非聚类中心点进行聚类。本发明专利技术方法能自动选取聚类中心点，并获得理想的聚类结果，且在处理复杂流行数据集上优势较大。且在处理复杂流行数据集上优势较大。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然邻居扩散的密度峰值聚类方法
技术邻域
[0001]本专利技术涉及聚类算法，具体涉及一种基于自然邻居扩散的密度峰值聚类方法。

技术介绍

[0002]随着计算机技术与网络技术的快速发展，人类社会已然从传统的互联网步入移动互联、大数据时代。最近几年来，随着移动端应用程序使用量的呈井喷式增长以及数据库系统的成熟，人类社会每天产生的数据出现了指数级的增长。数据的不确定性以及来源的多样性使得传统的数据分析技术越来越难以在庞大的数据中发现其中的关系和规则，也无法根据已有的数据预测未来的发展趋势。人们迫切需要挖掘数据背后隐藏信息的技术手段，由此大数据技术应运而生。数据挖掘技术是现代大数据分析的核心技术之一。
[0003]聚类分析简称聚类，是数据挖掘的重要技术之一。聚类分析技术被广泛应用于其他行业，例如从船舶AIS数据中挖掘出相关的行为模式辅助水上安全监管、对水电机组进行振动故障诊断、分析客户需求完善产品服务方案、新型冠状病毒肺炎证候特点分析等。
[0004]自聚类分析技术出现以来，学者们提出了大量的聚类算法。现有的聚类算法大致分为基于划分的聚类方法、基于密度的聚类方法、基于层次的聚类方法、基于网格的聚类方法以及基于模型的聚类方法。基于密度的聚类算法认为，高密度点被低密度点所环绕，DBSCAN是一种经典的基于密度的聚类算法。基于划分的聚类算法通过不断迭代来最小化代价函数的方法来得到数据集的最优划分，K
‑
Means算法和K
‑
Medoids算法是经典的基于划分的聚类算法。基于层次的聚类...

【技术保护点】

【技术特征摘要】
1.一种基于自然邻居扩散的密度峰值聚类方法，其特征在于，包括以下步骤：步骤1、计算数据集D中的所有样本点的局部密度，点x
i
的局部密度ρ
i
公式为：其中，n是样本点个数，d
ij
是样本点x
i
和x
j
之间的欧式距离，χ(x)是指示函数，当x<0时，χ(x)＝1，否则χ(x)＝0，d
c
是截断距离；步骤2、计算所有样本点的斥群值，δ
i
则是计算点x
i
与其他更高局部密度点的最近距离，点x
i
的斥群值δ
i
计算公式为：其中，d
ij
是点x
i
和x
j
的欧式距离；步骤3、选取样本点x
i
的自然邻居，样本点x
i
,x
j
∈D，点x
i
属于点x
j
的k
‑
近邻，点x
j
属于点x
i
的k
‑
近邻，那么点x
i
和点x
j
互为自然邻居，具体定义如下：NNN(i)＝{j|x
i
∈KNN(x
j
)∩x
j
∈KNN(x
i
)}其中，KNN(x
i
)是样本点x
i
的k
‑
近邻；步骤4、计算数据集D中样本点x
i
的聚类中心评价指标γ
i
，点x
i
的...

【专利技术属性】
技术研发人员：杨海波，何云斌，张爽，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人