基于分层图增强堆叠自编码器的多视图图像分类方法技术

技术编号：34485868 阅读：17 留言：0更新日期：2022-08-10 09:03

本发明专利技术公开了一种基于分层图增强堆叠自编码器的多视图图像分类方法，涉及基于图增强的多视图图像分类方法及系统，其目的在于解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题。本发明专利技术提出一种基于分层图增强堆叠自编码器的多视图图像分类方法及系统，考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性；一个分层的图结构被引入到自编码器中去学习特定视图的表示，保持了多视图数据的局部和非局部的几何结构；在学习到具有几何结构特性的各个视图的特征表示后，通过使用全连接神经网络重构出每个单一视图，公共表示能够被学习；还能自动平衡多个视图之间的互补性和一致性。和一致性。和一致性。

全部详细技术资料下载

【技术实现步骤摘要】
基于分层图增强堆叠自编码器的多视图图像分类方法

[0001]本专利技术属于图像分类
，尤其涉及多视图图像分类
，更具体的是涉及一种基于图增强的多视图图像分类方法。

技术介绍

[0002]随着深度学习的快速发展，各种各样的深度模型被提出。自编码器(AE)作为最具代表性的深度学习算法之一，已成功应用于计算机视觉、语音识别和自然语言处理等诸多领域。自编码器是一种无监督学习的方法，其目的是最小化输入和相应的重构输出之间的重构误差。基于原始数据的几何结构在特征表示中的重要作用，一些流形学习算法被引入到自编码器中。例如，NLSP
‑
SAE考虑到数据的非局部和局部的几何结构，确保了在原始空间中相邻的样本在重构空间中离得更近，不相邻的样本离得更远。然而，在视觉任务中，有时仅使用单个视图是不能满足需求的。因此，多视图的概念被引出，即对于同一事物可以从不同的途径或不同的角度对其进行描述。例如，同一个物体从不同角度拍摄的图片；同一语义的不同语言的表达；即使是对于同一张图片，也可以采取不同的特征提取方式构成多个视图。近年来，随着多视图数据在实际中的广泛应用，多视图表示学习受到了广泛的关注。与单视图表示学习不同，多视图表示学习的关键是从不同的视图中学习一个公共表示。其中，自编码器也被引入到多视图表示学习中。AE2‑
Nets考虑多视图表示学习过程中多视图数据的相关性和互补性，通过使用嵌套的自编码器框架将来自异构数据源的信息集成到完整的表示中，并且自动地平衡了不同视图之间的一致性和互补性。
[000...

【技术保护点】

【技术特征摘要】
1.一种基于分层图增强堆叠自编码器的多视图图像分类方法，其特征在于，包括如下步骤：步骤S1，样本采集采集多视图样本χ＝{X
(1)
，X
(2)
，...，X
(V)
}，并进行归一化处理；其中N为样本个数，d
v
为第v个视图的维度，V表示视图个数；步骤S2，构建模型构建自编码器网络模型，自编码器网络模型包括自编码器和全连接神经网络；令第v个视图在自编码器的参数为在全连接神经网络中的参数为初始化所有视图在自编码器中的参数以及在全连接神经网络中的参数和公共表示H；其中l表示自编码器的第l层，L表示自编码器的总层数；m表示全连接神经网络的第m层，M表示全连接神经网络的总层数；v表示第v个视图，V表示视图个数；表示第v个视图在自编码器的第l层编码部分的权重和偏置，表示第v个视图在自编码器的第l层解码部分的权重和偏置；表示第v个视图在全连接神经网络第m层中的权重和偏置；步骤S3，模型训练将步骤S1归一化处理后的样本数据输入到自编码器网络模型中，样本数据输入自编码器并获取到每个视图的表示Z，全连接神经网络从初始化的公共表示H中重构出每个视图的表示C，全连接神经网络计算表示Z和表示C之间的损失，并优化、更新全连接神经网络的参数以及公共表示H，直至自编码器网络模型收敛；步骤S4，实时分类将实时多视图数据输入经步骤S3训练后的自编码器网络模型中，得到实时的公共表示H，将公共表示H输入到分类器中，对实时多视图数据进行分类，得到分类结果。2.如权利要求1所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法，其特征在于，步骤S3包括：步骤S3.1，自编码器网络模型中的编码器为图增强堆叠自编码器，图增强堆叠自编码器包括多个图增强编码
‑
解码结构并以分层的方式堆叠而成，将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练，获取到每个视图的表示Z
(L,v)
；步骤S3.2，随机初始化公共表示H，令全连接神经网络的输入为C
(0,v)
＝H，从公共表示H中重构出每个单一视图的表示C
(M,v)
，再根据图增强堆叠自编码器网络中学习到的表示Z
(L,v)
、和表示C
(M,v)
，通过最小化目标函数J
c
，分别对全连接神经网络的参数公共表示H进行更新；其中最小化目标函数J
c
为：
步骤S3.3，重复步骤S3.1
‑
S3.2,直至图增强堆叠自编码器网络收敛。3.如权利要求2所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法，其特征在于，步骤S3.1中，具体步骤为：步骤S3.1.1，将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练，直到最后一层预训练完成；步骤S3.1.2，基于步骤S3.1.1预训练获得的参数，通过最小化微调目标函数，微调图增强堆叠自编码器的参数。4.如权利要求3所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法，其特征在于，步骤S3.1.1中，对于第v个视图来说，第l
‑
1层学习到的表示Z
(l
‑
1，v)
作为第l层的输入；第一层的输入为原始数据，即Z
(0，v)
＝X
(v)
；记第v个视图的第l层参数为Θ
ae(l,v)
＝{W
*(l,v)
,b
*(l,v)
}，*∈{e,d}，其中表示第v个视图在自编码器的第l层编码部分的权重和偏置，表示第v个视图在自编码器的第l层解码部分的权重和偏置；；通过最小化目标函数，每个视图的第l层被预训练，直到最后一层预训练完成；最小化目标函数为：其中，第一项为重构损失，第二项为局部图正则化项，第三步为非局部图正则化项；Θ
ae(l,v)
为第v个视图在自编码器第l层的参数，λ
L
和λ
N
分别是局部和非局部正则化项的调节参数；tr()为矩阵的迹；Z
(l
‑
1,v)
、Z
(l,v)
分别为第l
‑
1、l层学习到的表示，Z
(l
‑
1,v)
作为第l层的输入，为第l层输入Z
(l
‑
1,v)
的重构，L
+(l,v)
＝D
+(l,v)
‑
W
+(l,v)
是第v个视图第l层的局...

【专利技术属性】
技术研发人员：苟建平，谢楠楠，刘金华，王智，欧卫华，陈雯柏，
申请(专利权)人：江苏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人