【技术实现步骤摘要】
基于密度峰值的数据聚类方法、装置、介质
[0001]本专利技术属于聚类分析
,具体的说,涉及一种基于密度峰值的数据 聚类方法、装置、介质。
技术介绍
[0002]聚类分析是一种无监督学习的机器学习方法,它按照数据间的相似性将数 据分配到不同的集合中,使得同一集合内的样本点相似性较高,不同集合间的 样本点的相似度较低,这些集合称为簇。现有的聚类方法根据对相似性的不同 理解可以划分为不同的类别,典型的有基于距离的方法和基于密度的方法。 Rodriguez和Laio在2014年提出通过快速搜索和查找密度峰值的聚类方法 (Clustering by Fast Search and Find of Density Peaks,DPC),是一种流行的基于密 度的聚类方法,DPC是基于两个假设提出的,第一个假设为聚类中心是局部密 度峰值,第二个假设为非聚类中心点应与其高密度最近邻在同一个集群中,由于 DPC简单高效,已广泛应用于图像处理、信息安全、大数据等领域。例如,对 于一个图像集,将图像集中的相似图片聚类到一个类别下。但DPC存在以下缺 点:首先,初始聚类中心的选择是手动的,这在某些情况下是极其困难的,甚 至是不可能的。其次仅考虑绝对密度而忽略了相对密度,导致方法不能很好的 处理密度不均匀的集群。最后,DPC的剩余点分配策略将导致“连锁反应”,即 当一个高密度点被分配到错误的簇中,它的密度较低的邻居很可能别分配到同 一个错误的簇中。
技术实现思路
[0003]本专利技术的目的在于克服
技术介绍
所提出的技术问 ...
【技术保护点】
【技术特征摘要】
1.一种基于密度峰值的数据聚类方法,其特征在于,所述方法包括:获取数据集,所述数据集是文本集或图像集,当所述数据集是文本集时,提取所述文本集中的词语特征,将词语特征作为数据点,当所述数据集是图像集时,将所述图像集中的图片作为数据点,计算每个数据点的绝对密度;通过每个数据点的绝对密度排序得到数据点的上下级关系,并利用数据点的直接下级数目作为数据点的相对密度;根据数据点的相对密度和绝对密度从所有数据点中选出若干数据点作为聚类中心;根据聚类中心的有效下级关系和k层上级对各个数据点进行分配:通过如下公式利用有效下级关系对各个数据点逐步分配:其中,L(x
i
)表示作为聚类中心的数据点x
i
的标签,Ll(x
j
)表示数据点x
j
的直接下级集合,DR(x
j
)表示数据点x
j
的相似性可达点的集合,在DR(x
j
)中,数据点x
i
和x
j
之间的距离小于截断距离d
c
,且MCDNN(x)
i
和MCDNN(x
j
)之间重合点集数目大于MCD,即数据点x
i
和x
j
之间具有相似性,数据点x
j
是数据点x
i
相似性可达的数据点,在DR(x
j
)中的任意一点xk满足x
k
∈MCDNN(x
k+1
),并且number(MCDNN(x
k
)∩MCDNN(x
k+1
))≥MCD;MCD表示数据集中距离数据点x
i
的距离小于截断距离d
c
的数据点个数,MCDNN(x
k+1
)表示数据点x
k+1
的最大截断近邻,所述最大截断近邻是距离数据点x
k+1
最近的二倍MCD个数据点,number(MCDNN(x
k
)∩MCDNN(x
k+1
))≥MCD表示MCDNN(x
k
)和MCDNN(x
k+1
)之间的重合点集数目大于MCD,即DR(x
j
)中的任意一点与其临近的数据点具有相似性;在存在未分配的数据点的情况下,计算所述未分配的数据点到不同簇之间的平均距离,并分配至最近的簇,所述簇为根据聚类中心的标签分配在对应标签下的数据点的集合。2.根据权利要求1所述的方法,其特征在于,通过如下公式计算得到每个数据点的绝对密度:其中,ρ
i
表示绝对密度,d
c
是截断距离由用户输入或者根据数据集分布按照1%
‑
2%进行调整设定,sign(d
ij
‑
d
c
)是指示函数,如果d
ij
‑
d
c
≤0,则sign(d
ij
‑
d
c
)=1;否则sign(d
ij
‑
d
c
)=0。3.根据权利要求1所述的方法,其特征在于,所述根据数据点的相对密度和绝对密度从所有数据点中选出若干数据点作为聚类中心,包括:通过如下公式计算数据点的相对密度和绝对密度:通过如下公式计算数据点的相对密度和绝对密度:其中,当x
i
是x
j
的直接下级时,ζ(x
i
,x
j
)取值为1,否则,取值为0;ρ
r
(i),ρ
m
(i)分别表示x
i
的相对密度和混合密度,max()表示最大值函数。4.根据权利要求3所述的方法,其特征在于,所述根据数据点的相对密度和绝对密度从
所有数据点中选出若干数据点作为聚类中心,包括:通过如下公式衡量数据点成为聚类中心的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。