当前位置: 首页 > 专利查询>江苏大学专利>正文

基于分层图增强堆叠自编码器的多视图图像分类方法技术

技术编号:34485868 阅读:17 留言:0更新日期:2022-08-10 09:03
本发明专利技术公开了一种基于分层图增强堆叠自编码器的多视图图像分类方法,涉及基于图增强的多视图图像分类方法及系统,其目的在于解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题。本发明专利技术提出一种基于分层图增强堆叠自编码器的多视图图像分类方法及系统,考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性;一个分层的图结构被引入到自编码器中去学习特定视图的表示,保持了多视图数据的局部和非局部的几何结构;在学习到具有几何结构特性的各个视图的特征表示后,通过使用全连接神经网络重构出每个单一视图,公共表示能够被学习;还能自动平衡多个视图之间的互补性和一致性。和一致性。和一致性。

【技术实现步骤摘要】
基于分层图增强堆叠自编码器的多视图图像分类方法


[0001]本专利技术属于图像分类
,尤其涉及多视图图像分类
,更具体的是涉及一种基于图增强的多视图图像分类方法。

技术介绍

[0002]随着深度学习的快速发展,各种各样的深度模型被提出。自编码器(AE)作为最具代表性的深度学习算法之一,已成功应用于计算机视觉、语音识别和自然语言处理等诸多领域。自编码器是一种无监督学习的方法,其目的是最小化输入和相应的重构输出之间的重构误差。基于原始数据的几何结构在特征表示中的重要作用,一些流形学习算法被引入到自编码器中。例如,NLSP

SAE考虑到数据的非局部和局部的几何结构,确保了在原始空间中相邻的样本在重构空间中离得更近,不相邻的样本离得更远。然而,在视觉任务中,有时仅使用单个视图是不能满足需求的。因此,多视图的概念被引出,即对于同一事物可以从不同的途径或不同的角度对其进行描述。例如,同一个物体从不同角度拍摄的图片;同一语义的不同语言的表达;即使是对于同一张图片,也可以采取不同的特征提取方式构成多个视图。近年来,随着多视图数据在实际中的广泛应用,多视图表示学习受到了广泛的关注。与单视图表示学习不同,多视图表示学习的关键是从不同的视图中学习一个公共表示。其中,自编码器也被引入到多视图表示学习中。AE2‑
Nets考虑多视图表示学习过程中多视图数据的相关性和互补性,通过使用嵌套的自编码器框架将来自异构数据源的信息集成到完整的表示中,并且自动地平衡了不同视图之间的一致性和互补性。
[0003]随着科技的不断进步,图像分类在很多领域有广泛应用。包括安防领域的人脸识别和智能视频分析,以及医学领域的图像识别等。图像分类是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为识别等其他高层视觉任务的基础。然而,传统的单一视图的数据已经不能满足当前图像分类的需求,需要一种适用于多视图图像分类的方法。所谓的多视图图像,是指由同一目标对象的不同视角图像构成的,其对目标对象的表述比传统的单视图图像更加形象。多视图图像分类是从多个视角对整个图像进行描述,然后使用分类器判别物体类别。因此如何提取各个视图的特征以及将学习到的各个视图的特征加以融合是至关重要的。

技术实现思路

[0004]本专利技术的目的在于:为了解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题,本专利技术提供一种基于分层图增强堆叠自编码器的多视图图像分类方法。
[0005]本专利技术为了实现上述目的具体采用以下技术方案:
[0006]一种基于分层图增强堆叠自编码器的多视图图像分类方法,包括如下步骤:
[0007]步骤S1,样本采集
[0008]采集多视图样本χ={X
(1)
,X
(2)
,...,X
(V)
},并进行归一化处理;
[0009]其中N为样本个数,d
v
为第v个视图的维度,V表示视图个数;
[0010]步骤S2,构建模型
[0011]构建用于自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为在全连接神经网络中的参数为初始化所有视图在自编码器中的参数以及在全连接神经网络中的参数和公共表示H;
[0012]其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;表示第v个视图在全连接神经网络第m层中的权重和偏置;
[0013]步骤S3,模型训练
[0014]将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;
[0015]步骤S4,实时分类
[0016]将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。
[0017]作为优选,步骤S3包括:
[0018]步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码

解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z
(L,v)

[0019]步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C
(0,v)
=H,从公共表示H中重构出每个单一视图的表示C
(M,v)
,再根据图增强堆叠自编码器网络中学习到的表示Z
(L,v)
、和表示C
(M,v)
,通过最小化目标函数J
c
,分别对全连接神经网络的参数公共表示H进行更新;
[0020]其中最小化目标函数J
c
为:
[0021][0022]步骤S3.3,重复步骤S3.1

S3.2,直至图增强堆叠自编码器网络收敛。
[0023]作为优选,步骤S3.1中,具体步骤为:
[0024]步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;
[0025]步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数。
[0026]作为优选,步骤S3.1.1中,步骤S3.1.1中,对于第v个视图来说,第l一1层学习到的表示Z
(l

1,v)
作为第l层的输入;第一层的输入为原始数据,即Z
(0,v)
=X
(v)
;记第v个视图的第l层参数为Θ
ae(l,v)
={W
*(l,v)
,b
*(l,v)
}*∈{e,d},其中表示第v个视图在自编码器的第I层编码部分的权重和偏置,表示第v个视图在自编码器的第I层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;
[0027]最小化目标函数为:
[0028][0029]其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θ
ae(l,v)
为第v个视图在自编码器第l层的参数,λ
L
和λ
N
分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z
(l
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,包括如下步骤:步骤S1,样本采集采集多视图样本χ={X
(1)
,X
(2)
,...,X
(V)
},并进行归一化处理;其中N为样本个数,d
v
为第v个视图的维度,V表示视图个数;步骤S2,构建模型构建自编码器网络模型,自编码器网络模型包括自编码器和全连接神经网络;令第v个视图在自编码器的参数为在全连接神经网络中的参数为初始化所有视图在自编码器中的参数以及在全连接神经网络中的参数和公共表示H;其中l表示自编码器的第l层,L表示自编码器的总层数;m表示全连接神经网络的第m层,M表示全连接神经网络的总层数;v表示第v个视图,V表示视图个数;表示第v个视图在自编码器的第l层编码部分的权重和偏置,表示第v个视图在自编码器的第l层解码部分的权重和偏置;表示第v个视图在全连接神经网络第m层中的权重和偏置;步骤S3,模型训练将步骤S1归一化处理后的样本数据输入到自编码器网络模型中,样本数据输入自编码器并获取到每个视图的表示Z,全连接神经网络从初始化的公共表示H中重构出每个视图的表示C,全连接神经网络计算表示Z和表示C之间的损失,并优化、更新全连接神经网络的参数以及公共表示H,直至自编码器网络模型收敛;步骤S4,实时分类将实时多视图数据输入经步骤S3训练后的自编码器网络模型中,得到实时的公共表示H,将公共表示H输入到分类器中,对实时多视图数据进行分类,得到分类结果。2.如权利要求1所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3包括:步骤S3.1,自编码器网络模型中的编码器为图增强堆叠自编码器,图增强堆叠自编码器包括多个图增强编码

解码结构并以分层的方式堆叠而成,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练,获取到每个视图的表示Z
(L,v)
;步骤S3.2,随机初始化公共表示H,令全连接神经网络的输入为C
(0,v)
=H,从公共表示H中重构出每个单一视图的表示C
(M,v)
,再根据图增强堆叠自编码器网络中学习到的表示Z
(L,v)
、和表示C
(M,v)
,通过最小化目标函数J
c
,分别对全连接神经网络的参数公共表示H进行更新;其中最小化目标函数J
c
为:
步骤S3.3,重复步骤S3.1

S3.2,直至图增强堆叠自编码器网络收敛。3.如权利要求2所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1中,具体步骤为:步骤S3.1.1,将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练,直到最后一层预训练完成;步骤S3.1.2,基于步骤S3.1.1预训练获得的参数,通过最小化微调目标函数,微调图增强堆叠自编码器的参数。4.如权利要求3所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法,其特征在于,步骤S3.1.1中,对于第v个视图来说,第l

1层学习到的表示Z
(l

1,v)
作为第l层的输入;第一层的输入为原始数据,即Z
(0,v)
=X
(v)
;记第v个视图的第l层参数为Θ
ae(l,v)
={W
*(l,v)
,b
*(l,v)
},*∈{e,d},其中表示第v个视图在自编码器的第l层编码部分的权重和偏置,表示第v个视图在自编码器的第l层解码部分的权重和偏置;;通过最小化目标函数,每个视图的第l层被预训练,直到最后一层预训练完成;最小化目标函数为:其中,第一项为重构损失,第二项为局部图正则化项,第三步为非局部图正则化项;Θ
ae(l,v)
为第v个视图在自编码器第l层的参数,λ
L
和λ
N
分别是局部和非局部正则化项的调节参数;tr()为矩阵的迹;Z
(l

1,v)
、Z
(l,v)
分别为第l

1、l层学习到的表示,Z
(l

1,v)
作为第l层的输入,为第l层输入Z
(l

1,v)
的重构,L
+(l,v)
=D
+(l,v)

W
+(l,v)
是第v个视图第l层的局...

【专利技术属性】
技术研发人员:苟建平谢楠楠刘金华王智欧卫华陈雯柏
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1