基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备技术

技术编号：28785722 阅读：22 留言：0更新日期：2021-06-09 11:20

基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备，该图像聚类方法包括同时学习一组图像数据的二维嵌入表示和结构化的相似图，在图像数据的二维嵌入表示上学习带有自适应最优邻域分配的相似图，通过在学习到的图的拉普拉斯矩阵施加秩约束来使得相似图的连通块数量等于期望的聚类个数，从而完成二维图像数据聚类的任务。本发明专利技术同时提供了一种实现上述方法的系统、终端及计算机可读存储介质。本发明专利技术充分利用了图像像素的空间关系，提升了图像数据的聚类性能，通过挖掘图像的内在关系而构建出高质量的相似拓扑图，避免了单独学习二者可能带来的次优解问题，最终提升了图像聚类性能。能。能。

全部详细技术资料下载

【技术实现步骤摘要】
基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备

[0001]本专利技术属于图像聚类领域，涉及基于二维数据嵌入与邻接拓扑图的图像聚类方法及设备。

技术介绍

[0002]聚类在机器学习和数据挖掘中起着至关重要的作用，它的目标是将数据点分成若干个不相交的组，相似的数据点被分配到同一个组里。由于聚类的重要作用，许多聚类方法被陆续提出，例如K均值聚类、层次聚类、谱聚类、最大间隔聚类和多视图聚类等等。由于K均值聚类算法具有高效并且简单的特点，因此K均值聚类是使用最广的聚类算法。当前存在的大多数聚类算法只能从低维样本中获得较好的性能，为了解决这个问题。研究者们提出了一种方法，该方法可以从高维数据中学习低维表示，然后利用学习到的低维特征进行聚类。
[0003]主要成分分析(PCA)是进行数据降维常用的方法，而经典的K均值聚类能够在低维表示上执行聚类。一些研究者使用线性判别分析(LDA)把原始数据投影到低维空间，由于编码了判别信息，把K均值和LDA整合成为一个框架能够获得更好的性能。近年来，研究者提出了一个同时学习图像的2D嵌入特征以及在嵌入特征使用K均值聚类的框架，该方案虽然高效并能达到不错的效果，但这种方案的初始化仍然存在问题，因为K均值聚类算法如果没有好的初始化很可能得到很差的结果。基于拓扑图的方法是另外一个重要的方向，一些基于数据间关系的图表示已经展示出很好的性能，包括ratio cut、normalize cut和谱聚类。基于图的聚类算法的性能依赖于构建一个高质量的相似图去准确的捕捉数据的内在关系。为了提升聚类结果...

【技术保护点】

【技术特征摘要】
1.一种基于二维数据嵌入与邻接拓扑图的图像聚类方法，其特征在于，包括以下步骤：同时学习一组图像数据的二维嵌入表示和结构化的相似图，在图像数据的二维嵌入表示上学习带有自适应最优邻域分配的相似图，通过在学习到的图的拉普拉斯矩阵施加秩约束来使得相似图的连通块数量等于期望的聚类个数，从而完成二维图像数据聚类的任务。2.根据权利要求1所述基于二维数据嵌入与邻接拓扑图的图像聚类方法，其特征在于：通过在图像数据集X上对数据进行双边投影变换获得图像数据的二维嵌入表示。3.根据权利要求2所述基于二维数据嵌入与邻接拓扑图的图像聚类方法，其特征在于，对数据进行双边投影变换的计算表达式如下：式中，U和V分别是两个相乘投影矩阵，X
i
为第i个训练样本，i＝{1,2,
…
,N}，N为样本总数，代表所有训练样本图像的均值。4.根据权利要求1所述基于二维数据嵌入与邻接拓扑图的图像聚类方法，其特征在于：最优邻域分配以概率分配邻接点，构建相似图，使用欧式距离作为距离度量对象。5.根据权利要求4所述基于二维数据嵌入与邻接拓扑图的图像聚类方法，其特征在于，判定概率大小是否合理的计算表达式如下：式中，的距离越小，概率就越大；第二项是正则化项，α是正则化参数，x
i
为第i个训练样本X
i
的向量表示形式，i＝{1,2,
…
,N}，x
j
为第j个训练样本X
j
的向量表示形式，j＝{1,2,
…
,N}，N为样本总数，S为X的相似矩阵，为矩阵S的F范数，s
ij
为矩阵S的第i行、第j列的值，s
iT
为矩阵S的第i个行向量的转置。6.根据权利要求5所述基于二维数据嵌入与邻接拓扑图的图像聚类方法，其特征在于，以2D嵌入特征的方式计算相似图，目标函数如下：s.t.0≤S
ij
≤1,s
iT
1＝1,rank(L
S
)＝n
–
c式中，L
S
为矩阵S的拉普拉斯矩阵，n等于样本总数N，c为聚类...

【专利技术属性】
技术研发人员：郭宇，张亚军，张秋光，孙源，王飞，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人