基于静电力的密度峰聚类算法制造技术

技术编号：34257766 阅读：69 留言：0更新日期：2022-07-24 13:06

本发明专利技术针对密度峰值聚类算法(DPC)仅通过在阈值范围内样本数量来进行定义局部密度、对于阈值边缘部分的聚类不准确这两个缺陷。提出了一种基于静电力的密度峰聚类算法。首先，结合静电力公式提出了一种新的局部密度计算公式，不再简单的用在阈值内的数据点个数来表示局部密度，会更加准确；其次根据共享近邻的概念将边缘点进行重新检验并划分，避免了因为距离原因而导致的划分错误。离原因而导致的划分错误。离原因而导致的划分错误。

Density peak clustering algorithm based on electrostatic force

全部详细技术资料下载

【技术实现步骤摘要】
基于静电力的密度峰聚类算法

[0001]本专利技术属于聚类分析
，只要是为密度峰聚类算法进行改进优化。具体是一种基于加权共享最近邻的自适应聚类中心密度峰值聚类算法，可应用于图像处理、医学诊断、数据挖掘等领域。

技术介绍

[0002]自从2012年以来，“大数据”这一次被多次提及，因为随着互联网的发展，使数据和人类的生活越来越密不可分。各行各业的数据资源都开始了量化的过程，大数据作为这个高科技时代的产物，极大地方便了人类的工作和生活。数据挖掘领域作为大数据的一个重要分支，是指在海量的数据中，通过算法搜索出其中有用的信息的过程。聚类分析，在数据挖掘领域起着不可替代的作用。聚类旨在没有标签的数据中，通过算法找出数据间的相似性并进行归类，是无监督学习的一种。
[0003]在进入大数据时代，聚类发展的尤为迅猛，这一领域的研究人员提出了大量的聚类算法。例如 DBSCAN算法、AP算法、k
‑
means算法等。Rodriguez等人于2014年在Science上提出了一种新的基于密度的聚类算法——快速搜索和寻找密度峰值聚类算法(clustering by fast search and find of density peaks， DPC)这就是著名的DPC算法。DPC算法相比较于其他算法，首先，它具有较高的分类效率且原理简单；其次，解决了k
‑
means的只能处理凸形簇的缺点；最后，DPC算法仅需要较少的参数且不需要迭代，这样就极大的减少了时间消耗。但是该算法比较依赖于截断距离(...

【技术保护点】

【技术特征摘要】
1.基于静电力的密度峰值聚类算法，其特征在于，包括以下步骤：步骤1.局部密度计算阶段：根据静电力公式提出了一种计算数据之间相似度的公式，并用其重新定义了局部密度的计算方法；步骤2.聚类中心选取阶段：在计算完数据集中的局部密度ρ
i
和相对距离σ
i
后，以局部密度ρ
i
为横坐标，相对距离σ
i
为纵坐标，画出决策图，选取局部密度ρ
i
大，相对距离σ
i
也大的数据点作为聚类中心点；步骤3.簇边缘数据点重新检查并重新分配阶段：提出了一种新型的判断数据点与某一簇的归属概率的公式，根据已经分配完的各个簇，检查每个簇边缘的数据点，用该公式重新计算边缘点和每个簇的相似程度，选取相似程度最大的簇作为它的最终簇。2.根据权利要求1所述的基基于静电力的密度峰值聚类算法，其特征在于，所述骤1中，根据静电力提出了一种新型局部密度计算公式：用这种方式计算出来的局部密度考虑到了数据点之间的相似程度，而不是简单的用截断范围内的数据点的个数，会使聚类中心的选取更加准确。3....

【专利技术属性】
技术研发人员：李想，万静，张茗洋，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人