基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备技术

技术编号:28785722 阅读:22 留言:0更新日期:2021-06-09 11:20
基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备,该图像聚类方法包括同时学习一组图像数据的二维嵌入表示和结构化的相似图,在图像数据的二维嵌入表示上学习带有自适应最优邻域分配的相似图,通过在学习到的图的拉普拉斯矩阵施加秩约束来使得相似图的连通块数量等于期望的聚类个数,从而完成二维图像数据聚类的任务。本发明专利技术同时提供了一种实现上述方法的系统、终端及计算机可读存储介质。本发明专利技术充分利用了图像像素的空间关系,提升了图像数据的聚类性能,通过挖掘图像的内在关系而构建出高质量的相似拓扑图,避免了单独学习二者可能带来的次优解问题,最终提升了图像聚类性能。能。能。

【技术实现步骤摘要】
基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备


[0001]本专利技术属于图像聚类领域,涉及基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备。

技术介绍

[0002]聚类在机器学习和数据挖掘中起着至关重要的作用,它的目标是将数据点分成若干个不相交的组,相似的数据点被分配到同一个组里。由于聚类的重要作用,许多聚类方法被陆续提出,例如K均值聚类、层次聚类、谱聚类、最大间隔聚类和多视图聚类等等。由于K均值聚类算法具有高效并且简单的特点,因此K均值聚类是使用最广的聚类算法。当前存在的大多数聚类算法只能从低维样本中获得较好的性能,为了解决这个问题。研究者们提出了一种方法,该方法可以从高维数据中学习低维表示,然后利用学习到的低维特征进行聚类。
[0003]主要成分分析(PCA)是进行数据降维常用的方法,而经典的K均值聚类能够在低维表示上执行聚类。一些研究者使用线性判别分析(LDA)把原始数据投影到低维空间,由于编码了判别信息,把K均值和LDA整合成为一个框架能够获得更好的性能。近年来,研究者提出了一个同时学习图像的2D嵌入特征以及在嵌入特征使用K均值聚类的框架,该方案虽然高效并能达到不错的效果,但这种方案的初始化仍然存在问题,因为K均值聚类算法如果没有好的初始化很可能得到很差的结果。基于拓扑图的方法是另外一个重要的方向,一些基于数据间关系的图表示已经展示出很好的性能,包括ratio cut、normalize cut和谱聚类。基于图的聚类算法的性能依赖于构建一个高质量的相似图去准确的捕捉数据的内在关系。为了提升聚类结果的性能,基于图的聚类方法常常需要在相似图的基础上进行预处理。研究者们提出通过识别显著特征在相似图中编码局部邻接关系以有效的解决这一问题,为了构建相似图,将数据样本对应于相同子空间的稀疏表示。稀疏子空间聚类由Elhamifar和Vidal提出,探索数据样本在相同子空间的稀疏表示。尽管如此,上述方法不能保证获得理想的聚类结构的图。
[0004]尽管上述聚类方法已经获得了很好的性能,它们在直接用于图像聚类时仍然存在着一些不足之处。首先,这些方法的大多数将图像矩阵转换成一个向量,这样处理忽略了像素间的空间关系并且增加了计算量。其次,上述基于图的聚类方法一般会包括两个阶段,数据嵌入和子序列聚类,这样的过程导致了学习图像数据的低维表示是构造结构图的最优方法。

技术实现思路

[0005]本专利技术的目的在于针对上述现有技术中二维图像数据聚类效率以及质量不高的问题,提供一种基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备,高效、准确的完成图像聚类。
[0006]为了实现上述目的,本专利技术有如下的技术方案:
[0007]一种基于二维数据嵌入与邻接拓扑图的图像聚类方法,包括以下步骤:同时学习
一组图像数据的二维嵌入表示和结构化的相似图,在图像数据的二维嵌入表示上学习带有自适应最优邻域分配的相似图,通过在学习到的图的拉普拉斯矩阵施加秩约束来使得相似图的连通块数量等于期望的聚类个数,从而完成二维图像数据聚类的任务。
[0008]作为本专利技术基于二维数据嵌入与邻接拓扑图的图像聚类方法的一种优选方案,通过在图像数据集X上对数据进行双边投影变换获得图像数据的二维嵌入表示。
[0009]作为本专利技术基于二维数据嵌入与邻接拓扑图的图像聚类方法的一种优选方案,对数据进行双边投影变换的计算表达式如下:
[0010][0011]式中,U和V分别是两个相乘投影矩阵,X
i
为第i个训练样本,i={1,2,

,N},N为样本总数,代表所有训练样本图像的均值。
[0012]作为本专利技术基于二维数据嵌入与邻接拓扑图的图像聚类方法的一种优选方案,最优邻域分配以概率分配邻接点,构建相似图,使用欧式距离作为距离度量对象。
[0013]作为本专利技术基于二维数据嵌入与邻接拓扑图的图像聚类方法的一种优选方案,判定概率大小是否合理的计算表达式如下:
[0014][0015]式中,的距离越小,概率就越大;第二项是正则化项,α是正则化参数,x
i
为第i个训练样本X
i
的向量表示形式,i={1,2,

,N},x
j
为第j个训练样本X
j
的向量表示形式,j={1,2,

,N},N为样本总数,S为X的相似矩阵,为矩阵S的F范数,s
ij
为矩阵S的第i行、第j列的值,s
iT
为矩阵S的第i个行向量的转置。
[0016]作为本专利技术基于二维数据嵌入与邻接拓扑图的图像聚类方法的一种优选方案,以2D嵌入特征的方式计算相似图,目标函数如下:
[0017][0018]s.t.0≤S
ij
≤1,s
iT
1=1,rank(L
s
)=n

c
[0019]式中,L
S
为矩阵S的拉普拉斯矩阵,n等于样本总数N,c为聚类簇数。
[0020]总体优化目标函数如下:
[0021][0022]式中,λ是平衡上式中第一项与第二项的参数,为了满足秩约束rank(L
S
)=n

c,拉普拉斯矩阵有c个零特征值,并且最小的c个特征值之和等于0;
[0023]根据Ky定理得:
[0024][0025]式中,β为超参数,Tr(|)表示为矩阵的秩,G为L
S
的前c个最小特征值对应的特征向量,G
T
为G的转置。
[0026]作为本专利技术基于二维数据嵌入与邻接拓扑图的图像聚类方法的一种优选方案,对
每个变量求出局部最优解,进行迭代优化,完成二维图像数据聚类的任务。
[0027]本专利技术还提出一种基于二维数据嵌入与邻接拓扑图的图像聚类系统,包括:
[0028]二维嵌入表示及相似图学习模块,用于同时学习一组图像数据的二维嵌入表示和结构化的相似图;
[0029]联合优化框架建立模块,用于在图像数据的二维嵌入表示上学习带有自适应最优邻域分配的相似图;
[0030]图像聚类模块,用于在联合优化框架建立模块学习到的图的拉普拉斯矩阵施加秩约束来使得相似图的连通块数量等于期望的聚类个数,从而完成二维图像数据聚类的任务。
[0031]本专利技术还提出一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于二维数据嵌入与邻接拓扑图的图像聚类方法的步骤。
[0032]本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于二维数据嵌入与邻接拓扑图的图像聚类方法的步骤。
[0033]相较于现有技术,本专利技术有如下的有益效果:基于联合聚类学习框架,同时学习一组图像数据的二维嵌入表示和结构化的相似图。在图像数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于二维数据嵌入与邻接拓扑图的图像聚类方法,其特征在于,包括以下步骤:同时学习一组图像数据的二维嵌入表示和结构化的相似图,在图像数据的二维嵌入表示上学习带有自适应最优邻域分配的相似图,通过在学习到的图的拉普拉斯矩阵施加秩约束来使得相似图的连通块数量等于期望的聚类个数,从而完成二维图像数据聚类的任务。2.根据权利要求1所述基于二维数据嵌入与邻接拓扑图的图像聚类方法,其特征在于:通过在图像数据集X上对数据进行双边投影变换获得图像数据的二维嵌入表示。3.根据权利要求2所述基于二维数据嵌入与邻接拓扑图的图像聚类方法,其特征在于,对数据进行双边投影变换的计算表达式如下:式中,U和V分别是两个相乘投影矩阵,X
i
为第i个训练样本,i={1,2,

,N},N为样本总数,代表所有训练样本图像的均值。4.根据权利要求1所述基于二维数据嵌入与邻接拓扑图的图像聚类方法,其特征在于:最优邻域分配以概率分配邻接点,构建相似图,使用欧式距离作为距离度量对象。5.根据权利要求4所述基于二维数据嵌入与邻接拓扑图的图像聚类方法,其特征在于,判定概率大小是否合理的计算表达式如下:式中,的距离越小,概率就越大;第二项是正则化项,α是正则化参数,x
i
为第i个训练样本X
i
的向量表示形式,i={1,2,

,N},x
j
为第j个训练样本X
j
的向量表示形式,j={1,2,

,N},N为样本总数,S为X的相似矩阵,为矩阵S的F范数,s
ij
为矩阵S的第i行、第j列的值,s
iT
为矩阵S的第i个行向量的转置。6.根据权利要求5所述基于二维数据嵌入与邻接拓扑图的图像聚类方法,其特征在于,以2D嵌入特征的方式计算相似图,目标函数如下:s.t.0≤S
ij
≤1,s
iT
1=1,rank(L
S
)=n

c式中,L
S
为矩阵S的拉普拉斯矩阵,n等于样本总数N,c为聚类...

【专利技术属性】
技术研发人员:郭宇张亚军张秋光孙源王飞
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1