基于密度峰值的数据聚类方法、装置、介质制造方法及图纸

技术编号:35260778 阅读:38 留言:0更新日期:2022-10-19 10:20
本发明专利技术公开了一种基于密度峰值的数据聚类方法、装置、介质,利用直接下级描述各个数据点的相对密度,其中数据点是数据集中的图片或者词语特征,设计结合相对密度和绝对密度的混合密度值识别聚类中心,并通过相似性可达定义有效下级,进行非中心点的主要分配,并结合不同簇的k层上级分布,确定剩余点的标签,以此可以有效将数据集中相同类别的数据点聚集在一个类别下,高效准确地完成了对数据集的分类。高效准确地完成了对数据集的分类。高效准确地完成了对数据集的分类。

【技术实现步骤摘要】
基于密度峰值的数据聚类方法、装置、介质


[0001]本专利技术属于聚类分析
,具体的说,涉及一种基于密度峰值的数据 聚类方法、装置、介质。

技术介绍

[0002]聚类分析是一种无监督学习的机器学习方法,它按照数据间的相似性将数 据分配到不同的集合中,使得同一集合内的样本点相似性较高,不同集合间的 样本点的相似度较低,这些集合称为簇。现有的聚类方法根据对相似性的不同 理解可以划分为不同的类别,典型的有基于距离的方法和基于密度的方法。 Rodriguez和Laio在2014年提出通过快速搜索和查找密度峰值的聚类方法 (Clustering by Fast Search and Find of Density Peaks,DPC),是一种流行的基于密 度的聚类方法,DPC是基于两个假设提出的,第一个假设为聚类中心是局部密 度峰值,第二个假设为非聚类中心点应与其高密度最近邻在同一个集群中,由于 DPC简单高效,已广泛应用于图像处理、信息安全、大数据等领域。例如,对 于一个图像集,将图像集中的相似图片聚类到一个类别下。但DPC存在以下缺 点:首先,初始聚类中心的选择是手动的,这在某些情况下是极其困难的,甚 至是不可能的。其次仅考虑绝对密度而忽略了相对密度,导致方法不能很好的 处理密度不均匀的集群。最后,DPC的剩余点分配策略将导致“连锁反应”,即 当一个高密度点被分配到错误的簇中,它的密度较低的邻居很可能别分配到同 一个错误的簇中。

技术实现思路

[0003]本专利技术的目的在于克服
技术介绍
所提出的技术问题,提出了一种基于密度 峰值的数据聚类方法、装置、介质,从假设与实现间的不一致出发和假设的不 适用性出发。利用直接下级描述各个数据点的相对密度,设计结合相对密度和 绝对密度的混合密度值识别聚类中心,并通过相似性可达定义有效下级,进行 非中心点的主要分配,并结合不同簇的k层上级分布,确定剩余点的标签,以 此可以有效将数据集中相同类别的数据点聚集在一个类别下,高效准确地完成 了对数据集的分类。
[0004]本专利技术的具体技术方案如下:
[0005]根据本专利技术的第一技术方案,提供了一种结合混合密度和局部结构的基于 密度峰值的数据聚类方法,所述方法包括:
[0006]获取数据集,所述数据集是文本集或图像集,当所述数据集是文本集时, 提取所述文本集中的词语特征,将词语特征作为数据点,当所述数据集是图像 集时,将所述图像集中的图片作为数据点,计算每个数据点的绝对密度;通过 每个数据点的绝对密度排序得到数据点的高密度最近邻,利用数据点的直接下 级数目作为数据点的相对密度值;根据相对密度结合绝对密度表达混合密度以 确定混合密度聚类中心;通过如下公式(9)将混合密度聚类中心利用有效下级 关系逐步分配:
[0007][0008]其中,L(x
i
)表示数据点x
i
的标签,Ll(x
j
)表示数据点x
j
的直接下级集合, DR(x
j
)表示数据点x
j
的相似性可达点的集合。
[0009]根据本专利技术的第二技术方案,提供了一种结合混合密度和局部结构的基于 密度峰值的数据聚类装置。所述装置包括处理器,所述处理器被配置为:获取 数据集,所述数据集是文本集或图像集,当所述数据集是文本集时,提取所述 文本集中的词语特征,将词语特征作为数据点,当所述数据集是图像集时,将 所述图像集中的图片作为数据点,计算每个数据点的绝对密度;通过每个数据 点的绝对密度排序得到数据点的高密度最近邻,利用数据点的直接下级数目作 为数据点的相对密度值;根据相对密度结合绝对密度表达混合密度以确定混合 密度聚类中心;通过如下公式(9)将混合密度聚类中心利用有效下级关系逐步 分配:
[0010][0011]其中,L(x
i
)表示数据点x
i
的标签,Ll(x
j
)表示数据点x
j
的直接下级集合, DR(x
j
)表示数据点x
j
的相似性可达点的集合。
[0012]根据本专利技术的第三技术方案,提供了一种计算机可读存储介质,其上存储 有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算 机执行本专利技术各个实施例所述的方法。
[0013]根据本专利技术实施例的基于密度峰值的数据聚类方法、装置、介质,在对数 据集进行聚类时,无需手动设置中心点,可以实现自动化地聚类,将数据集中 属于相同类别的数据点分配到同一簇下,高效准确地完成了数据聚类,有效地 提高了在处理交叉、不均匀密度和高维数据等复杂数据集时的处理效率和聚类 精确度。
附图说明
[0014]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。
[0015]图1(a)为DPC方法Jain数据集上的决策图。
[0016]图1(b)为DPC方法Jain数据集上的聚类结果图。
[0017]图2(a)为DPC方法Pathbased数据集上的决策图。
[0018]图2(b)为DPC方法Pathbased数据集上的聚类结果图。
[0019]图3(a)

(c)为相似性定义和两步分配。
[0020]图4(a)为新方法在Jain数据集上的决策图。
[0021]图4(b)为新方法在Jain数据集上的聚类过程。
[0022]图4(c)为新方法在Jain数据集上的聚类过程。
[0023]图4(d)为新方法在Pathbased数据集上的决策图。
[0024]图4(e)为新方法在Pathbased数据集上的聚类过程。
[0025]图4(f)为新方法在Pathbased数据集上的聚类过程。
[0026]图5(a)

(c)为Twomons数据集k层上级分配过程。
[0027]图6(a)

(x)为聚类结果的可视化视图。
[0028]图7为本专利技术实施例的一种基于密度峰值的数据聚类方法的流程图。
具体实施方式
[0029]下面将对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描 述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术 中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有 其他实施例,都属于本专利技术保护的范围。
[0030]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施例 仅用以解释本专利技术,并不用于限定专利技术。
[0031]现在结合说明书附图对本专利技术做进一步的说明。
[0032]根据现有技术中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于密度峰值的数据聚类方法,其特征在于,所述方法包括:获取数据集,所述数据集是文本集或图像集,当所述数据集是文本集时,提取所述文本集中的词语特征,将词语特征作为数据点,当所述数据集是图像集时,将所述图像集中的图片作为数据点,计算每个数据点的绝对密度;通过每个数据点的绝对密度排序得到数据点的上下级关系,并利用数据点的直接下级数目作为数据点的相对密度;根据数据点的相对密度和绝对密度从所有数据点中选出若干数据点作为聚类中心;根据聚类中心的有效下级关系和k层上级对各个数据点进行分配:通过如下公式利用有效下级关系对各个数据点逐步分配:其中,L(x
i
)表示作为聚类中心的数据点x
i
的标签,Ll(x
j
)表示数据点x
j
的直接下级集合,DR(x
j
)表示数据点x
j
的相似性可达点的集合,在DR(x
j
)中,数据点x
i
和x
j
之间的距离小于截断距离d
c
,且MCDNN(x)
i
和MCDNN(x
j
)之间重合点集数目大于MCD,即数据点x
i
和x
j
之间具有相似性,数据点x
j
是数据点x
i
相似性可达的数据点,在DR(x
j
)中的任意一点xk满足x
k
∈MCDNN(x
k+1
),并且number(MCDNN(x
k
)∩MCDNN(x
k+1
))≥MCD;MCD表示数据集中距离数据点x
i
的距离小于截断距离d
c
的数据点个数,MCDNN(x
k+1
)表示数据点x
k+1
的最大截断近邻,所述最大截断近邻是距离数据点x
k+1
最近的二倍MCD个数据点,number(MCDNN(x
k
)∩MCDNN(x
k+1
))≥MCD表示MCDNN(x
k
)和MCDNN(x
k+1
)之间的重合点集数目大于MCD,即DR(x
j
)中的任意一点与其临近的数据点具有相似性;在存在未分配的数据点的情况下,计算所述未分配的数据点到不同簇之间的平均距离,并分配至最近的簇,所述簇为根据聚类中心的标签分配在对应标签下的数据点的集合。2.根据权利要求1所述的方法,其特征在于,通过如下公式计算得到每个数据点的绝对密度:其中,ρ
i
表示绝对密度,d
c
是截断距离由用户输入或者根据数据集分布按照1%

2%进行调整设定,sign(d
ij

d
c
)是指示函数,如果d
ij

d
c
≤0,则sign(d
ij

d
c
)=1;否则sign(d
ij

d
c
)=0。3.根据权利要求1所述的方法,其特征在于,所述根据数据点的相对密度和绝对密度从所有数据点中选出若干数据点作为聚类中心,包括:通过如下公式计算数据点的相对密度和绝对密度:通过如下公式计算数据点的相对密度和绝对密度:其中,当x
i
是x
j
的直接下级时,ζ(x
i
,x
j
)取值为1,否则,取值为0;ρ
r
(i),ρ
m
(i)分别表示x
i
的相对密度和混合密度,max()表示最大值函数。4.根据权利要求3所述的方法,其特征在于,所述根据数据点的相对密度和绝对密度从
所有数据点中选出若干数据点作为聚类中心,包括:通过如下公式衡量数据点成为聚类中心的...

【专利技术属性】
技术研发人员:安俊秀马振明靳宇倡
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1