基于静电力的密度峰聚类算法制造技术

技术编号:34257766 阅读:69 留言:0更新日期:2022-07-24 13:06
本发明专利技术针对密度峰值聚类算法(DPC)仅通过在阈值范围内样本数量来进行定义局部密度、对于阈值边缘部分的聚类不准确这两个缺陷。提出了一种基于静电力的密度峰聚类算法。首先,结合静电力公式提出了一种新的局部密度计算公式,不再简单的用在阈值内的数据点个数来表示局部密度,会更加准确;其次根据共享近邻的概念将边缘点进行重新检验并划分,避免了因为距离原因而导致的划分错误。离原因而导致的划分错误。离原因而导致的划分错误。

Density peak clustering algorithm based on electrostatic force

【技术实现步骤摘要】
基于静电力的密度峰聚类算法


[0001]本专利技术属于聚类分析
,只要是为密度峰聚类算法进行改进优化。具体是一种基于加权共享最近邻的自适应聚类中心密度峰值聚类算法,可应用于图像处理、医学诊断、数据挖掘等领域。

技术介绍

[0002]自从2012年以来,“大数据”这一次被多次提及,因为随着互联网的发展,使数据和人类的生活越来越密不可分。各行各业的数据资源都开始了量化的过程,大数据作为这个高科技时代的产物,极大地方便了人类的工作和生活。数据挖掘领域作为大数据的一个重要分支,是指在海量的数据中,通过算法搜索出其中有用的信息的过程。聚类分析,在数据挖掘领域起着不可替代的作用。聚类旨在没有标签的数据中,通过算法找出数据间的相似性并进行归类,是无监督学习的一种。
[0003]在进入大数据时代,聚类发展的尤为迅猛,这一领域的研究人员提出了大量的聚类算法。例如 DBSCAN算法、AP算法、k

means算法等。Rodriguez等人于2014年在Science上提出了一种新的基于密度的聚类算法——快速搜索和寻找密度峰值聚类算法(clustering by fast search and find of density peaks, DPC)这就是著名的DPC算法。DPC算法相比较于其他算法,首先,它具有较高的分类效率且原理简单;其次,解决了k

means的只能处理凸形簇的缺点;最后,DPC算法仅需要较少的参数且不需要迭代,这样就极大的减少了时间消耗。但是该算法比较依赖于截断距离(参数)的选择,要根据认为经验来确定参数的大小,且参数选择不合适会对聚类结果产生较大的影响。DPC也对流型的数据集的聚类效果不是很有效。
[0004]基于层次的聚类算法。AGNES算法一种从底向上聚合聚类的一种算法,先将数据集中每一个样本都看成一个初试聚类,然后在运行中每一部找出两个距离最近的聚类簇进行合并,一直进行迭代,直到到达预设的聚类个数。AGNES算法实现较为简单,但是已经合并的簇不能被取消,所以再进行添加样本,会对结果的影响比较大。基于划分的聚类算法,例如最经典的聚类算法k

means算法,是一种基于欧氏距离的聚类算法,计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,并且每一次要更新聚类中心,直到收敛。这种算法的优点是实现容易、原理简单。但是这类的算法只能处理凸形簇。同样是基于密度的聚类算法DBSCAN,这种算法提出了密度可达、密度直达等一系列的概念,可以对任意形状的数据进行分类。
[0005]自DPC算法提出至今,有很多的学者在DPC算法的基础上进行创新,也提出了很多解决DPC算法缺陷的算法。例如,LI等提出的一种针对传统密度峰值聚类算法无法适应数据库中数据量动态增长的知识发现问题,提出一种改进的进化密度峰值聚类算法(EDPC)。TONG提出的一种新的基于密度的聚类算法,新的不依赖截止距离的非中心节点分配策略和一种识别噪声节点的方法的NN

DPC算法。QIU提出了一种基于人工蜂群优化的密度峰值算法,改进后的DPC算法可以更好地实现簇间数据点的自动识别和合理聚类,降低原始密度峰
值聚类(DPC)取值难度。
[0006]密度峰值聚类的核心思想包括:聚类中心的密度要比周围邻居的密度大且聚类中心之间的距离较远。通过定义局部密度和相对距离来画出聚类中心的决策图,选取局部密度大且相对距离大的点作为聚类中心。因此在数据集中的每个点都要计算该点的局部密度值和相对距离。下面对局部密度ρ
i
和相对距离δ
i
进行定义。
[0007]假设数据集A={xi|i=1,2,3
……
,n},n代表数据集的A的大小。
[0008]局部密度也就是该数据点的密度值,下面给出截断核的定义:
[0009]ρ
i
=∑χ(d
ij

d
c
)
[0010]其中当χ(x)<0时,χ(x)=1;当χ(x)>0时,χ(x)=0,其中dc>0,dc为截断距离。
[0011]高斯核计算方式如下所示:
[0012][0013]其中截断核的定义是在截断距离内所有数据点的和,高斯核的定义是所有数据点到该数据点的高斯距离。
[0014]根据局部密度ρ
i
和相对距离δ
i
,定义一个决策值γ
i
,通过决策值来画出决策图,并找出聚类中心点,决策值的定义如下:
[0015]γ
i
=ρ
i
×
δ
i
[0016]根据局部密度和相对距离绘制出决策图可以发现,聚类中心点和普通点完全分开,选取局部密度大且相对距离也大的点作为聚类中心,局部密度小但是相对距离大的为离群点。并将所有点分配到距离最近的聚类中心所在的类簇中。
[0017]静电力表示带电物体的相互吸引或排斥的能力,两电荷之间的力公式如下:
[0018][0019]其中k为静电力常量,其值通常为k=9.0
×
109N
·
m2/C2。q1,q2分别代表两个电荷所带的电荷量,q1q2可以理解为两个电荷之间的吸引或排斥的能力,r为两电荷之间的距离。

技术实现思路

[0020]电荷之间的吸引或排斥程度,和数据之间的相似程度具有着异曲同工之妙,所以可以将所有的数据点都看成是带点的粒子。粒子之间存在“引力”和“斥力”,这里的“引力”和“斥力”加和的绝对值代表数据点之间的相似度,根据静电力公式引出数据之间的“引力”公式如下:
[0021][0022]其中k为静电力常量,F为数据点之间的相似程度,r代表两个数据点之间的欧式距离,其中代表两个数据点之间的相似程度,这里之所以要取倒数是因为,如果两个数据点之间的相似程度大,那么这个差值就会比较小,所以去倒数后如果二者属性
接近那么二者的相似程度就会越大。
[0023]对上述的“引力”和“斥力”进行解释,实际上并不是说二者显示简单的吸引和排斥的作用。首先,二者并不是一个矢量,二者是没有方向的仅仅代表计算相似度的一种数值;其次,“斥力”这一概念是用来检测簇边缘数据点的准确性而定义的,所以要取二者和的绝对值才能表示真正的相似程度。
[0024]本算法在聚类中心的选取方面,对每一个数据点在截断距离内,用提出的“引力”公式,来代替截断核公式,计算出数据点中每一个点的所受的“引力”和的大小,这一数值就是该数据点的局部密度。
[0025]定义1(局部密度)为了更好的找到聚类中心,这里重新定义了局部密度的计算公式,假设数据集A={xi|i=1,2,3
……
,n},n代表数据集的A的大小。结合上述的“引力公式”,给出重新定义的局部密度:
[0026][0027]用这种方式计算出来的局部密度考虑到了数据点之间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于静电力的密度峰值聚类算法,其特征在于,包括以下步骤:步骤1.局部密度计算阶段:根据静电力公式提出了一种计算数据之间相似度的公式,并用其重新定义了局部密度的计算方法;步骤2.聚类中心选取阶段:在计算完数据集中的局部密度ρ
i
和相对距离σ
i
后,以局部密度ρ
i
为横坐标,相对距离σ
i
为纵坐标,画出决策图,选取局部密度ρ
i
大,相对距离σ
i
也大的数据点作为聚类中心点;步骤3.簇边缘数据点重新检查并重新分配阶段:提出了一种新型的判断数据点与某一簇的归属概率的公式,根据已经分配完的各个簇,检查每个簇边缘的数据点,用该公式重新计算边缘点和每个簇的相似程度,选取相似程度最大的簇作为它的最终簇。2.根据权利要求1所述的基基于静电力的密度峰值聚类算法,其特征在于,所述骤1中,根据静电力提出了一种新型局部密度计算公式:用这种方式计算出来的局部密度考虑到了数据点之间的相似程度,而不是简单的用截断范围内的数据点的个数,会使聚类中心的选取更加准确。3....

【专利技术属性】
技术研发人员:李想万静张茗洋
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1