一种基于卷积神经网络的立体图像视觉显著性检测方法技术

技术编号:21972697 阅读:104 留言:0更新日期:2019-08-28 01:44
本发明专利技术公开了一种基于卷积神经网络的立体图像视觉显著性检测方法,其构建卷积神经网络,包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架和解码框架,编码框架由RGB特征提取模块、深度特征提取模块和特征融合模块组成;将训练集中的每幅立体图像的左视点图像和深度图像输入到卷积神经网络中进行训练,得到训练集中的每幅立体图像的显著性图像;计算训练集中的每幅立体图像的显著性图像与真实人眼注视图像之间的损失函数值,重复执行多次后得到卷积神经网络训练模型;待测试的立体图像的左视点图像和深度图像输入到卷积神经网络训练模型中,预测得到显著性预测图像;优点是其具有较高的视觉显著性检测准确性。

A visual saliency detection method for stereo images based on convolution neural network

【技术实现步骤摘要】
一种基于卷积神经网络的立体图像视觉显著性检测方法
本专利技术涉及一种视觉显著性检测技术,尤其是涉及一种基于卷积神经网络的立体图像视觉显著性检测方法。
技术介绍
视觉显著性是近年来神经科学、机器人技术、计算机视觉等多个领域的热门研究课题。关于视觉显著性检测的研究可以分为两大类:眼球注视预测和显著性目标检测。前者是预测人在观看自然景物时的若干注视点,后者是准确提取感兴趣的物体。一般来说,视觉显著性检测算法可以分为自顶向下和自底向上两类。自顶向下的方法是任务驱动的,需要监督学习。而自底向上的方法通常使用低层线索,如颜色特征、距离特征和启发式显著性特征。最常用的启发式显著性特征之一是对比度,例如基于像素或基于块的对比度。以往对视觉显著性检测的研究大多集中在二维图像上。然而发现,首先,三维数据代替二维数据更适合实际应用;其次,随着视觉场景变得越来越复杂,仅利用二维数据来提取突出的物体是不够的。近年来,随着诸如Time-of-Flight传感器和MicrosoftKinect等三维数据获取技术的进步,推动了结构有限元法的采用,提高了外观相似的不同物体之间的识别能力。深度数据易于捕获,与光线无关,还可以提供几何线索,提高视觉显著性预测。由于RGB数据与深度数据的互补性,提出了大量将RGB图像与深度图像成对组合用于视觉显著性检测的方法。之前的工作主要集中在利用领域特定的先验知识来构建低层次的显著性特征,例如人类倾向于更关注更近的对象,然而这种观察很难推广到所有的场景。在以往的大部分工作中,多模态融合问题都是通过直接序列化RGB-D通道来解决的,或者独立处理每种模态,然后结合两种模态的决策。虽然这些策略取得了很大的改进,但它们很难充分探索跨模式互补。近年来,随着卷积神经网络(CNNs)在学习RGB数据判别特征方面的成功,越来越多的工作利用CNNs探索更强大的有效多模态组合的RGB-D表示。这些工作大多基于两流的体系结构,其中RGB数据和深度数据在一个独立的自底向上的流中学习,并在早期或后期结合特征进行联合推理。作为最流行的解决方案,双流架构比基于手工RGB-D特性的工作实现了显著的改进,然而,存在最关键问题:如何有效的利用自底向上过程中的多模态互补信息。因此,有必要对RGB-D图像视觉显著性检测技术进行进一步研究,以提高视觉显著性检测的准确性。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于卷积神经网络的立体图像视觉显著性检测方法,其具有较高的视觉显著性检测准确性。本专利技术解决上述技术问题所采用的技术方案为:一种基于卷积神经网络的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为{Dn(x,y)}、其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架和解码框架,编码框架由RGB特征提取模块、深度特征提取模块和特征融合模块三部分组成,RGB特征提取模块由第1个至第4个神经网络块、第1个至第3个下采样块组成,深度特征提取模块由第5个至第8个神经网络块、第4个至第6个下采样块组成,特征融合模块由第9个至第15个神经网络块、第1个至第4个最大池化层组成,解码框架由第16个至第19个神经网络块、第1个至第4个上采样层组成;输出层由第一卷积层、第一批标准化层和第一激活层组成,第一卷积层的卷积核大小为3×3、步幅大小为1、卷积核个数为1、填充为1,第一激活层的激活方式为“Sigmoid”;对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;对于RGB特征提取模块,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第1个下采样块的输入端接收P1中的所有特征图,第1个下采样块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X1;第2个神经网络块的输入端接收X1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P2;第2个下采样块的输入端接收P2中的所有特征图,第2个下采样块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X2;第3个神经网络块的输入端接收X2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第3个下采样块的输入端接收P3中的所有特征图,第3个下采样块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X3;第4个神经网络块的输入端接收X3中的所有特征图,第4个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;对于深度特征提取模块,第5个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第5个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P5;第4个下采样块的输入端接收P5中的所有特征图,第4个下采样块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X4;第6个神经网络块的输入端接收X4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;第5个下采样块的输入端接收P6中的所有特征图,第5个下采样块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X5;第7个神经网络块的输入端接收X5中的所有特征图,第7个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第6个下采样块的输入端接收P7中的所有特征图,第6个下采样块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X6;第8个神经网络块的输入端接收X6中的所有特征图,第8个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;对于本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{I

【技术特征摘要】
1.一种基于卷积神经网络的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为{Dn(x,y)}、其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架和解码框架,编码框架由RGB特征提取模块、深度特征提取模块和特征融合模块三部分组成,RGB特征提取模块由第1个至第4个神经网络块、第1个至第3个下采样块组成,深度特征提取模块由第5个至第8个神经网络块、第4个至第6个下采样块组成,特征融合模块由第9个至第15个神经网络块、第1个至第4个最大池化层组成,解码框架由第16个至第19个神经网络块、第1个至第4个上采样层组成;输出层由第一卷积层、第一批标准化层和第一激活层组成,第一卷积层的卷积核大小为3×3、步幅大小为1、卷积核个数为1、填充为1,第一激活层的激活方式为“Sigmoid”;对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;对于RGB特征提取模块,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第1个下采样块的输入端接收P1中的所有特征图,第1个下采样块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X1;第2个神经网络块的输入端接收X1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P2;第2个下采样块的输入端接收P2中的所有特征图,第2个下采样块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X2;第3个神经网络块的输入端接收X2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第3个下采样块的输入端接收P3中的所有特征图,第3个下采样块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X3;第4个神经网络块的输入端接收X3中的所有特征图,第4个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;对于深度特征提取模块,第5个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第5个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P5;第4个下采样块的输入端接收P5中的所有特征图,第4个下采样块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X4;第6个神经网络块的输入端接收X4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;第5个下采样块的输入端接收P6中的所有特征图,第5个下采样块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X5;第7个神经网络块的输入端接收X5中的所有特征图,第7个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第6个下采样块的输入端接收P7中的所有特征图,第6个下采样块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X6;第8个神经网络块的输入端接收X6中的所有特征图,第8个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;对于特征融合模块,第9个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第9个神经网络块的输出端输出3幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第10个神经网络块的输出端输出3幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element-wiseSummation操作,Element-wiseSummation操作后输出3幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第11个神经网络块的输入端接收E1中的所有特征图,第11个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P11;对P1中的所有特征图、P5中的所有特征图和P11中的所有特征图进行Element-wiseSummation操作,Element-wiseSummation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E2;第1个最大池化层的输入端接收E2中的所有特征图,第1个最大池化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z1;第12个神经网络块的输入端接收Z1中的所有特征图,第12个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P12;对P2中的所有特征图、P6中的所有特征图和P12中的所有特征图进行Element-wiseSummation操作,Element-wiseSummation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E3;第2个最大池化层的输入端接收E3中的所有特征图,第2个最大池化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z2;第13个神经网络块的输入端接收Z2中的所有特征图,第13个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P13;对P3中的所有特征图、P7中的所有特征图和P13中的所有特征图进行Element-wiseSummation操作,Element-wiseSummation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E4;第3个最大池化层的输入端接收E4中的所有特征图,第3个最大池化层的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z3;第14个神经网络块的输入端接收Z3中的所有特征图,第14个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P14;对P4中的所有特征图、P8中的所有特征图和P14中的所有特征图进行Element-wiseSummation操作,Element-wiseSummation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E5;第4个最大池化层的输入端接收E5中的所有特征图,第4个最大池化层的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z4;第15个神经网络块的输入端接收Z4中的所有特征图,第15个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P15;对于解码框架,第1个上采样层的输入端接收P15中的所有特征图,第1个上采样层的输出端输出1024幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为S1;第16个神经网络块的输入端接收S1中的所有特征图,第16个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P16;第2个上采样层的输入端接收P16中的所有特征图,第2个上采样层的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为S2;第17个神经网络块的输入端接收S2中的所有特征图,第17个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P17;第3个上采样层的输入端接收P17中的所有特征图,第3个上采样层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为S3;第18个神经网络块的输入端接收S3中的所有特征图,第18个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P18;第4个上采样层的输入端接收P18中的所有特征图,第4个上采样层的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为S4;第19个神经网络块的输入端接收S4中的所有特征图,第19个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的...

【专利技术属性】
技术研发人员:周武杰吕营雷景生张伟何成王海江
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1