基于深度学习编码译码网络的立体图像视觉显著提取方法技术

技术编号:20867779 阅读:23 留言:0更新日期:2019-04-17 09:35
本发明专利技术公开了一种基于深度学习编码译码网络的立体图像视觉显著提取方法,在训练阶段,构建深度学习编码译码网络,包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层,编码网络框架由彩色通道编码部分和视差通道编码部分组成;然后将训练集中的左视点图像和左视点图像输入到深度学习编码译码网络中进行训练;多次训练后得到深度学习编码译码网络训练模型及最优参数;在测试阶段,将待预测的立体图像的左视点图像和左视点图像输入到深度学习编码译码网络训练模型中,并利用最优参数进行预测,得到人类注视预测图;优点是其提取的立体视觉特征符合显著语义,且其具有较强的提取稳定性和较高的提取准确性。

【技术实现步骤摘要】
基于深度学习编码译码网络的立体图像视觉显著提取方法
本专利技术涉及一种视觉显著提取技术,尤其是涉及一种基于深度学习编码译码网络的立体图像视觉显著提取方法。
技术介绍
人们在接收自然图像后,由于人脑需要区分对待不同等级的信息资源,因此在处理自然图像信息时,人们会将不同的信息资源进行分级处理,从而表现出选择的特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的各个区域,而是对更感兴趣的语义信息部分进行优先处理。将图像视觉显著区域计算出来是计算机视觉以及基于内容的视频检测领域中的一个重要的研究内容。随着立体影像放映和采集设备的飞速发展,立体图像视觉显著检测也成为了非常重要的研究内容。立体图像并不是平面图像的简单拓展,人眼感知立体图像产生立体图像的过程也不是简单的左视点图像和右视点图像的叠加过程,因此,立体视觉特征并不是平面视觉特征的简单拓展。但是,现有的立体图像视觉显著提取方法还停留在平面图像视觉显著提取方法之上,且现有的立体图像视觉显著提取方法提取的人类注视图的准确性较差,如齐峰等人提出的利用Log-Gabor滤波方法的立体视觉显著提取方法,其仅利用颜色、亮度、方向的特征进行人类本文档来自技高网...

【技术保护点】
1.一种基于深度学习编码译码网络的立体图像视觉显著提取方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅宽度为R且高度为L的立体图像;然后将所有立体图像各自的左视点图像、左视差图像和人类注视图构成训练集,将训练集中的第n幅左视点图像记为{IL,n(x,y)},将训练集中与{IL,n(x,y)}对应的左视差图像记为{ID,n(x,y)},将训练集中与{IL,n(x,y)}对应的人类注视图记为{IF,n(x,y)};再将训练集中的每幅左视点图像缩放到480×640像素尺寸,得到训练集中的每幅左视点图像对应的480×640像素尺寸图像,将{IL,n(...

【技术特征摘要】
1.一种基于深度学习编码译码网络的立体图像视觉显著提取方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅宽度为R且高度为L的立体图像;然后将所有立体图像各自的左视点图像、左视差图像和人类注视图构成训练集,将训练集中的第n幅左视点图像记为{IL,n(x,y)},将训练集中与{IL,n(x,y)}对应的左视差图像记为{ID,n(x,y)},将训练集中与{IL,n(x,y)}对应的人类注视图记为{IF,n(x,y)};再将训练集中的每幅左视点图像缩放到480×640像素尺寸,得到训练集中的每幅左视点图像对应的480×640像素尺寸图像,将{IL,n(x,y)}对应的480×640像素尺寸图像记为{IL,n(x480,y640)};并将训练集中的每幅左视差图像缩放到480×640像素尺寸,得到训练集中的每幅左视差图像对应的480×640像素尺寸图像,将{ID,n(x,y)}对应的480×640像素尺寸图像记为{ID,n(x480,y640)};将训练集中的每幅人类注视图缩放到480×640像素尺寸,得到训练集中的每幅人类注视图对应的480×640像素尺寸图像,将{IF,n(x,y)}对应的480×640像素尺寸图像记为{IF,n(x480,y640)};其中,N为正整数,N≥100,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,IL,n(x,y)表示{IL,n(x,y)}中坐标位置为(x,y)的像素点的像素值,ID,n(x,y)表示{ID,n(x,y)}中坐标位置为(x,y)的像素点的像素值,IF,n(x,y)表示{IF,n(x,y)}中坐标位置为(x,y)的像素点的像素值,1≤x480≤480,1≤y640≤640,IL,n(x480,y640)表示{IL,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值,ID,n(x480,y640)表示{ID,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值,IF,n(x480,y640)表示{IF,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值;步骤1_2:构建深度学习编码译码网络:深度学习编码译码网络包括彩色通道输入层、视差通道输入层、编码网络框架、译码网络框架、输出层;编码网络框架由彩色通道编码部分和视差通道编码部分组成,彩色通道编码部分由第1块彩色通道Vgg卷积网络块、第2块彩色通道Vgg卷积网络块、第3块彩色通道Vgg卷积网络块、第4块彩色通道Vgg卷积网络块、第5块彩色通道Vgg卷积网络块依次设置组成,视差通道编码部分由第1块视差通道Vgg卷积网络块、第2块视差通道Vgg卷积网络块、第3块视差通道Vgg卷积网络块、第4块视差通道Vgg卷积网络块、第5块视差通道Vgg卷积网络块依次设置组成;译码网络框架由第5级译码网络块、第4级译码网络块、第3级译码网络块、第2级译码网络块、第1级译码网络块依次设置组成;对于彩色通道输入层,彩色通道输入层的输入端接收一幅输入立体图像的左视点图像对应的480×640像素尺寸图像,彩色通道输入层的输出端输出左视点图像对应的480×640像素尺寸图像给彩色通道编码部分;其中,要求输入立体图像的宽度为R、高度为L;对于视差通道输入层,视差通道输入层的输入端接收一幅输入立体图像的左视差图像对应的480×640像素尺寸图像,视差通道输入层的输出端输出左视差图像对应的480×640像素尺寸图像给视差通道编码部分;对于彩色通道编码部分,第1块彩色通道Vgg卷积网络块的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,第1块彩色通道Vgg卷积网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为VL,1,其中,VL,1中的每幅特征图的宽度为240、高度为320;第2块彩色通道Vgg卷积网络块的输入端接收VL,1中的所有特征图,第2块彩色通道Vgg卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为VL,2,其中,VL,2中的每幅特征图的宽度为120、高度为160;第3块彩色通道Vgg卷积网络块的输入端接收VL,2中的所有特征图,第3块彩色通道Vgg卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为VL,3,其中,VL,3中的每幅特征图的宽度为60、高度为80;第4块彩色通道Vgg卷积网络块的输入端接收VL,3中的所有特征图,第4块彩色通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VL,4,其中,VL,4中的每幅特征图的宽度为30、高度为40;第5块彩色通道Vgg卷积网络块的输入端接收VL,4中的所有特征图,第5块彩色通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VL,5,其中,VL,5中的每幅特征图的宽度为30、高度为40;对于视差通道编码部分,第1块视差通道Vgg卷积网络块的输入端接收视差通道输入层的输出端输出的左视差图像对应的480×640像素尺寸图像,第1块视差通道Vgg卷积网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为VD,1,其中,VD,1中的每幅特征图的宽度为240、高度为320;第2块视差通道Vgg卷积网络块的输入端接收VD,1中的所有特征图,第2块视差通道Vgg卷积网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为VD,2,其中,VD,2中的每幅特征图的宽度为120、高度为160;第3块视差通道Vgg卷积网络块的输入端接收VD,2中的所有特征图,第3块视差通道Vgg卷积网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为VD,3,其中,VD,3中的每幅特征图的宽度为60、高度为80;第4块视差通道Vgg卷积网络块的输入端接收VD,3中的所有特征图,第4块视差通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VD,4,其中,VD,4中的每幅特征图的宽度为30、高度为40;第5块视差通道Vgg卷积网络块的输入端接收VD,4中的所有特征图,第5块视差通道Vgg卷积网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为VD,5,其中,VD,5中的每幅特征图的宽度为30、高度为40;对于译码网络框架,第5级译码网络块的输入端接收VL,5中的所有特征图、VD,5中的所有特征图、输入立体图像的16幅30×40像素尺寸的中心偏好特征图,第5级译码网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y5,其中,Y5中的每幅特征图的宽度为60、高度为80;第4级译码网络块的输入端接收彩色通道编码部分中的第4块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第4块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y5中的所有特征图、输入立体图像的16幅60×80像素尺寸的中心偏好特征图,第4级译码网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y4,其中,Y4中的每幅特征图的宽度为120、高度为160;第3级译码网络块的输入端接收彩色通道编码部分中的第3块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第3块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y4中的所有特征图、输入立体图像的16幅120×160像素尺寸的中心偏好特征图,第3级译码网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为Y3,其中,Y3中的每幅特征图的宽度为240、高度为320;第2级译码网络块的输入端接收彩色通道编码部分中的第2块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第2块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y3中的所有特征图、输入立体图像的16幅240×320像素尺寸的中心偏好特征图,第2级译码网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Y2,其中,Y2中的每幅特征图的宽度为480、高度为640;第1级译码网络块的输入端接收彩色通道编码部分中的第1块彩色通道Vgg卷积网络块的卷积部分输出的所有特征图、视差通道编码部分中的第1块视差通道Vgg卷积网络块的卷积部分输出的所有特征图、Y2中的所有特征图、输入立体图像的16幅480×640像素尺寸的中心偏好特征图,第1级译码网络块的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1,其中,Y1中的每幅特征图的宽度为480、高度为640;对于输出层,其由输出卷积层组成,输出卷积层的输入端接收Y1中的所有特征图,输出卷积层的输出端输出1幅特征图,该幅特征图即为输入立体图像的人类注视预测图;其中,输出卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为1、激活函数均为relu函数,输入立体图像的人类注视预测图的宽度为480、高度为640;步骤1_3:将选取的每幅立体图像作为输入立体图像,将每幅输入立体图像的人类注视图对应的480×640像素尺寸图像作为监督,将每幅输入立体图像的左视点图像对应的480×640像素尺寸图像及左视差图像对应的480×640像素尺寸图像输入到深度学习编码译码网络中进行训练,得到每幅输入立体图像的人类注视预测图;步骤1_4:重复执行步骤1_3共V次,得到训练好的深度学习编码译码网络训练模型及其最优权值矢量和最优偏置项;其中,V>1;所述的测试阶段过程的具体步骤为:步骤2_1:令{Itest(x',y')}表示待预测的立体图像,将{Itest(x',y')}的左视点图像和左视差图像对应记为{Itest,L(x',y')}和{Itest,D(x',y')};然后将{Itest,L(x',y')}缩放到480×640像素尺寸,得到{Itest,L(x',y')}对应的480×640像素尺寸图像,记为{Itest,L(x'480,y'640)};并将{Itest,D(x',y')}缩放到480×640像素尺寸,得到{Itest,D(x',y')}对应的480×640像素尺寸图像,记为{Itest,D(x'480,y'640)};其中,1≤x'≤R',1≤y'≤L',R'表示{Itest(x',y')}的宽度,L'表示{Itest(x',y')}的高度,Itest(x',y')表示{Itest(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,L(x',y')表示{Itest,L(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,D(x',y')表示{Itest,D(x',y')}中坐标位置为(x',y')的像素点的像素值,1≤x'480≤480,1≤y'640≤640,Itest,L(x'480,y'640)表示{Itest,L(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值,Itest,D(x'480,y'640)表示{Itest,D(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值;步骤2_2:将{Itest,L(x'480,y'640)}和{Itest,D(x'480,y'640)}输入到训练好的深度学习编码译码网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,得到{Itest(x',y')}的人类注视预测图即视觉显著图像,记为{Itest,F(x'480,y'640)};其中,Itest,F(x'480,y'640)表示{Itest,F(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值。2.根据权利要求1所述的基于深度学习编码译码网络的立体图像视觉显著提取方法,其特征在于所述的步骤1_2中,彩色通道编码部分中的第1块彩色通道Vgg卷积网络块由依次设置的第一卷积层、第二卷积层和第一最大池化层组成,第一卷积层的输入端接收彩色通道输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,第一卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为第二卷积层的输入端接收中的所有特征图,第二卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为并将作为第1块彩色通道Vgg卷积网络块的卷积部分的输出;第一最大池化层的输入端接收中的所有特征图,第一最大池化层的输出端输出64幅特征图,输出的所有特征图构成的集合为VL,1;其中,第一卷积层和第二卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为64、激活函数均为relu函数,和各自中的每幅特征图的宽度为480、高度为640,第一最大池化层的池化步长为(2,2);彩色通道编码部分中的第2块彩色通道Vgg卷积网络块由依次设置的第三卷积层、第四卷积层和第二最大池化层组成,第三卷积层的输入端接收VL,1中的所有特征图,第三卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为第四卷积层的输入端接收中的所有特征图,第四卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为并将作为第2块彩色通道Vgg卷积网络块的卷积部分的输出;第二最大池化层的输入端接收中的所有特征图,第二最大池化层的输出端输出128幅特征图,输出的所有特征图构成的集合为VL,2;其中,第三卷积层和第四卷积层的卷积核大小均为(3,3)、卷积步长均为(1,1)、卷积核数目均为128、激活函数均为relu函数,和各自中的每幅特征图的宽度为240、高度为320,第二最大池化层的池化步长为(2,2);彩色通道编码部分中的第3块彩色通道Vgg卷积网络块由依次设置的第五卷积层、第六卷积层、第七卷积层和第三最大池化层组成,第五卷积层的输入端接收VL,2中的所有特征图,第五卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第六卷积层的输入端接收中的所有特征图,第六卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为第七卷积层的输入端接收中的所有特征图,第七卷积层的输出...

【专利技术属性】
技术研发人员:周武杰蔡星宇雷景生邱薇薇钱亚冠
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1