一种基于核范数约束的多视图聚类方法及系统技术方案

技术编号:30367266 阅读:15 留言:0更新日期:2021-10-16 17:39
本发明专利技术为解决多视图公共子空间聚类时单个子空间可能存在噪声和冗余信息,提出了一种基于核范数约束的多视图聚类方法,包括以下步骤:对输入的多视图数据进行预处理;计算多视图数据样本之间的相似度,得到权重矩阵;将多视图数据中来自同一单视图的数据进行映射得到子空间,再对子空间采用核范数约束;将单视图投影到一个公共的受秩约束的低维子空间,得到目标函数;将目标函数从有约束问题转换为无约束问题,并对目标函数中的变量交替迭代优化至收敛,在优化后的低维子空间上运用谱聚类方法对多视图数据进行聚类,得到聚类结果。本发明专利技术对单个视图映射的子空间施加核范数约束,去除单个子空间的冗余信息,得到更好的块对角结构。构。构。

【技术实现步骤摘要】
一种基于核范数约束的多视图聚类方法及系统


[0001]本专利技术涉及计算机视觉
,更具体地,涉及一种基于核范数约束的多视图聚类方法及系统。

技术介绍

[0002]谱聚类是一种广泛使用的聚类算法,比起传统的K

Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。谱聚类算法中,相比单视图子空间聚类算法,多视图子空间聚类算法融合了多个视图的信息,充分考虑了不同视图的多样性,达到比单个视图更有效的聚类效果。
[0003]目前多视图聚类的相关的算法研究大致可以分为三类:基于协同训练的算法、基于多核学习的算法和子空间学习算法。基于协同训练的算法隐含地利用了聚类假设或流形假设,能够利用先验信息或相互学习知识,使两种不同视图的一致性最大化。该方法有一定的假设条件,并且要求数据具有两个充分冗余且满足条件独立性的视图。多核学习能够提高内核函数的搜索空间容量,从而具有良好的泛化性。多视图子空间聚类一般可以通过两种方式获得统一的特征表示:直接从多个子空间中获取单一表示;在学习一个潜在空间后获取统一表示。但是大多数多视图聚类算法都没有考虑保证原有各个视图的局部特征,在多视图公共子空间聚类时单个子空间可能存在噪声和冗余信息,导致聚类效果不理想。

技术实现思路

[0004]本专利技术为解决上述现有技术所述的多视图公共子空间聚类时单个子空间可能存在噪声和冗余信息的问题,提供一种基于核范数约束的多视图聚类方法,以及一种基于核范数约束的多视图聚类系统。
[0005]为解决上述技术问题,本专利技术的技术方案如下:
[0006]一种基于核范数约束的多视图聚类方法,包括以下步骤:
[0007]S1:对输入的多视图数据进行预处理;
[0008]S2:计算多视图数据样本之间的相似度,得到权重矩阵;
[0009]S3:将多视图数据中来自同一单视图的数据进行映射得到子空间,再对子空间采用核范数约束;
[0010]S4:将单视图投影到一个公共的受秩约束的低维子空间,得到目标函数;
[0011]S5:将目标函数从有约束问题转换为无约束问题,并对目标函数中的变量交替迭代优化至收敛,在优化后的低维子空间上运用谱聚类方法对多视图数据进行聚类,得到聚
类结果。
[0012]本技术方案中,通过核范数对单个视图映射的子空间进行约束,去除了单个视图映射的子空间中的冗余信息,进一步对公共子空间实行秩约束,使得能够得到准确数量的聚类簇,提高了聚类的准确性。
[0013]本专利技术还提出一种核范数约束的多视图聚类系统,其中包括:
[0014]数据预处理模块,用于对输入的多视图数据进行特征提取及数据清洗;
[0015]相似度计算模块,用于计算多视图数据样本之间的相似度,输出权重矩阵;
[0016]核范数约束模块,用于对将多视图数据中来自同一单视图的数据进行映射得到的子空间进行核范数约束;
[0017]目标函数优化模块,用于将单视图投影到一个公共的受秩约束的低维子空间并构建目标函数,再将目标函数从有约束问题转换为无约束问题,并对目标函数中的变量交替迭代优化至收敛;
[0018]多视图聚类模块,用于在优化后的低维子空间上运用谱聚类方法对多视图数据进行聚类,输出聚类结果。
[0019]与现有技术相比,本专利技术技术方案的有益效果是:本专利技术通过核范数对单个视图映射的子空间进行约束,去除其中的冗余信息,且能够展现更好的块对角结构;同时公共的低维子空间受秩约束,能够得到确切数量的聚类簇,进一步提高聚类的准确性。
附图说明
[0020]图1为实施例1的基于核范数约束的多视图聚类方法的流程图。
[0021]图2为实施例2的基于核范数约束的多视图聚类方法的原理图。
具体实施方式
[0022]附图仅用于示例性说明,不能理解为对本专利的限制;
[0023]对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0024]下面结合附图和实施例对本专利技术的技术方案做进一步的说明。
[0025]实施例1
[0026]本实施例提出一种基于核范数约束的多视图聚类方法,如图1所示,为本实施例的基于核范数约束的多视图聚类方法的流程图。
[0027]本实施例提出的基于核范数约束的多视图聚类方法中,包括以下步骤:
[0028]步骤1:对输入的多视图数据进行预处理。
[0029]本步骤中,对输入的多视图原始数据进行预处理的步骤包括:
[0030](1)特征提取:对同一批多视图数据采用多种不同的特征提取方法得到不同的特征;
[0031](2)数据清洗:对于多视图数据中缺失部分采用3次样条插值法进行插值;对于多视图数据中极大或极小的异常值,采用取平均值法进行替换。
[0032]步骤2:计算多视图数据样本之间的相似度,得到权重矩阵。
[0033]本步骤中,采用相似度度量函数计算多视图数据样本之间的相似度得到权重矩阵
W
v
,其表达公式如下:
[0034][0035]式中,权重矩阵为由相似度组成的矩阵;表示第v个视图中第i个样本与第j个样本之间的相似度,表示第v个视图中第i个样本,表示第v个视图中第j个样本,表示与第v个视图中第i个样本最邻近的样本;k表示聚类簇数。
[0036]在本实施例中,k设置为5。
[0037]进一步的,本步骤中根据所述权重矩阵对多视图数据执行流形正则化,旨在通过流形正则化使得在单个视图中相互接近的数据在公共子空间中依然接近,保证能够充分考虑视图中的局部特征。其表达公式如下:
[0038][0039]L
v
=D
v

W
v
[0040][0041]式中,Tr(
·
)表示矩阵的迹,Z
v
表示第v个视图的投影空间,L
v
表示第v个视图的拉普拉斯矩阵,D
v
为第v个视图的权重矩阵W
v
对应的对角矩阵。
[0042]步骤3:将多视图数据中来自同一单视图的数据进行映射得到子空间,再对子空间采用核范数约束。
[0043]本步骤中,旨在去除单个子空间中的冗余信息,得到块对角结构。其中,核范数约束的表达式如下:
[0044][0045]s.t.X=XZ
[0046]式中,Z为多视图数据的投影空间,X表示多视图数据的矩阵;||
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于核范数约束的多视图聚类方法,其特征在于,包括以下步骤:S1:对输入的多视图数据进行预处理;S2:计算多视图数据样本之间的相似度,得到权重矩阵;S3:将多视图数据中来自同一单视图的数据进行映射得到子空间,再对子空间采用核范数约束;S4:将单视图投影到一个公共的受秩约束的低维子空间,得到目标函数;S5:将目标函数从有约束问题转换为无约束问题,并对目标函数中的变量交替迭代优化至收敛,在优化后的低维子空间上运用谱聚类方法对多视图数据进行聚类,得到聚类结果。2.根据权利要求1所述的多视图聚类方法,其特征在于,对输入的多视图原始数据进行预处理的步骤包括:S11:特征提取:对同一批多视图数据采用多种特征提取方法得到不同的特征;S12:数据清洗:对多视图数据中缺失部分采用样条插值法进行插值;对多视图数据中极大或极小的异常值采用取平均值法进行替换。3.根据权利要求1所述的多视图聚类方法,其特征在于,所述S2步骤中,采用相似度度量函数计算多视图数据样本之间的相似度得到权重矩阵W
v
,其表达公式如下:式中,权重矩阵为由相似度组成的矩阵;表示第v个视图中第i个样本与第j个样本之间的相似度,表示第v个视图中第i个样本,表示第v个视图中第j个样本,表示与第v个视图中第i个样本最邻近的样本;k表示聚类簇数。4.根据权利要求3所述的多视图聚类方法,其特征在于,所述S2步骤中,还包括以下步骤:根据所述权重矩阵对多视图数据执行流形正则化,其表达公式如下:L
v
=D
v

W
v
式中,Tr(
·
)表示矩阵的迹,Z
v
表示第v个视图的投影空间,L
v
表示第v个视图的拉普拉斯矩阵,D
v
为第v个视图的权重矩阵W
v
对应的对角矩阵。5.根据权利要求3所述的多视图聚类方法,其特征在于,所述S3步骤中,对子空间采用核范数约束,其中核范数约束的表达式如下:s.t.X=XZ式中,Z为多视图数据的投影空间,X为多视图数据的矩阵;||
·
||
*
表示核范数。6.根据权利要求5所述的多视图聚类方法,其特征在于,所述S4步骤中,所述公共的低
维子空间受拉普拉斯秩约束。7.根据权利要求6所述的多视图聚类方法,其特征在于,将单视图投影到一个公共的受拉普拉斯秩约束的低维子空间得到的目标函数表达公式如下:diag(Z
v
)=01
T
a
i
=1,0≤a
i
≤1,i=1,2,...,nrank(L
A
)=n

cL
A
=D
A

W
A
式中,Tr(
·
)表示矩阵的迹,Z
v
表示第v个视图的投影空间,L
v
表示第v个视图的拉普拉斯矩阵;m为视图数,n为样本数;diag(
·
)表示矩阵的对角元素,rank(
·
)表示矩阵的秩;a
i
表示低维的公共子空间A中的第i列元素;表示L2范数;α、β、γ为对应的正则化参数;P是求解过程中引进的中间变量,P的大小为n行c列;L
A
表示关于低维的公共子空间A的拉普拉斯矩阵,W
A
为低维的公共子空间A的...

【专利技术属性】
技术研发人员:曹江中彭俏美
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1