一种基于神经网络的单目图像深度预测方法技术

技术编号:20567376 阅读:29 留言:0更新日期:2019-03-14 09:48
本发明专利技术公开了一种基于神经网络的单目图像深度预测方法,其构建包括输入层、隐层和输出层的神经网络,隐层包括编码和解码网络框架,编码网络框架包括5个神经网络块、1个推理层和1个连接层,第1个和第2个神经网络块均由2个卷积层和1个最大池化层组成、第3个至第5个神经网络块均由3个卷积层和1个最大池化层组成、推理层包括2个带孔卷积神经网络,解码网络框架包括5个神经网络块、5个连接层、4个独立双线性上采样层,每个神经网络块由1个卷积层和1个双线性上采样层组成;将训练集中的单目图像输入到神经网络中进行训练;测试时将预测的单目图像输入到神经网络模型中进行预测,得到预测深度图像;优点是预测精度高,计算复杂度低。

【技术实现步骤摘要】
一种基于神经网络的单目图像深度预测方法
本专利技术涉及一种图像深度预测技术,尤其是涉及一种基于神经网络的单目图像深度预测方法。
技术介绍
随着机器学习的迅速发展,机器模仿人类从图像中一定程度上估计物体距离远近已成为可能,即机器能在一定程度上对单张图像进行深度预测并获得深度图。深度图在三维重建、机器人导航等领域应用较广;同时,深度图由于提供了物体远近的信息,有助于检测、分割等计算机视觉领域。深度图当前主要来源于不同型号的深度相机,但是深度相机因价格昂贵、不易携带等缺点应用具有局限性;而利用单目视觉提取的深度信息成本较低,已受到关注。自2014年,深度学习首次应用于单目图像深度预测,且获得了较好的预测结果。由数据驱动的深度学习方法在单目视觉深度预测领域发展较快。相较于原始的通过人工设计的手工特征提取图像的深度特性,深度学习方法由于通过数据提取特征,因此更加客观可靠。2014年,Eigen等人首次提出多尺度神经网络的方式,通过对图像进行粗糙-精细两个尺度的特征提取,通过粗糙尺度获得低分辨率粗糙的网络框架,并通过精细尺度优化;2016年,LainaI等人提出全卷积残差网络(FullyConvolutionalResidualNetworks,FCRN)网络框架,利用Resnet网络框架强大的特征提取能力进行特征提取,并通过变形的卷积替代反卷积过程加快了运算速度;2017年,XiaogangWang等通过加入条件随机场(ConditionalRandomField,CRF)改善预测的深度图,并获得了较好的结果。但是,上述方法并没有充分考虑全局和局部特征,因此在深度预测中精度上仍然有提升的空间。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于神经网络的单目图像深度预测方法,其预测精度高,且计算复杂度低。本专利技术解决上述技术问题所采用的技术方案为:一种基于神经网络的单目图像深度预测方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为其中,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和的宽度,H表示{Iq(i,j)}和的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括编码网络框架和解码网络框架;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;对于编码网络框架,其包括5个神经网络块、1个推理层和1个连接层,第1个神经网络块由依次设置的2个卷积层和1个最大池化层组成,第2个神经网络块由依次设置的2个卷积层和1个最大池化层组成,第3个神经网络块由依次设置的3个卷积层和1个最大池化层组成,第4个神经网络块由依次设置的3个卷积层和1个最大池化层组成,第5个神经网络块由依次设置的3个卷积层和1个最大池化层组成,推理层由依次设置的2个带孔卷积神经网络构成,其中,每个神经网络块中的每个卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,每个神经网络块中的每个最大池化层的步长为2,每个带孔卷积神经网络中的卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,每个带孔卷积神经网络的膨胀率为2;对于编码网络框架,第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像,第1个神经网络块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为高度为符号为向下取整运算符号;第2个神经网络块的输入端接收A1中的所有特征图,第2个神经网络块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收A2中的所有特征图,第3个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为A3,其中,K'=128,A3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收A3中的所有特征图,第4个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为A4,其中,K'=128,A4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收A4中的所有特征图,第5个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为A5,其中,K'=128,A5中的每幅特征图的宽度为高度为推理层的输入端接收A5中的所有特征图,推理层的输出端输出K'幅特征图,将K'幅特征图构成的集合记为B,其中,K'=128,B中的每幅特征图的宽度为高度为连接层的输入端接收A5中的所有特征图和B中的所有特征图,连接层通过Concatence方式连接A5和B得到集合C,连接层的输出端输出C,其中,C中的每幅特征图的宽度为高度为C中包含的特征图的总幅数为K'+K';对于解码网络框架,其包括5个神经网络块、5个连接层、4个独立的双线性上采样层,每个神经网络块由依次设置的1个卷积层和1个双线性上采样层组成,其中,每个神经网络块中的卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,第1个神经网络块中的双线性上采样层的目标的宽度设置为与A4中的特征图的宽度一致、高度设置为与A4中的特征图的高度一致,第2个神经网络块中的双线性上采样层的目标的宽度设置为与A3中的特征图的宽度一致、高度设置为与A3中的特征图的高度一致,第3个神经网络块中的双线性上采样层的目标的宽度设置为与A2中的特征图的宽度一致、高度设置为与A2中的特征图的高度一致,第4个神经网络块中的双线性上采样层的目标的宽度设置为与A1中的特征图的宽度一致、高度设置为与A1中的特征图的高度一致,第5个神经网络块中的双线性上采样层的目标的宽度设置为与原始输入图像的宽度一致、高度设置为与原始输入图像的高度一致,每个独立的双线性上采样层的目标的宽度设置为与原始输入图像的宽度一致、高度设置为与原始输入图像的高度一致;对于解码网络框架,第1个神经网络块的输入端接收C中的所有特征图,第1个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为C1,其中,K'=128,C1中的每幅特征图的宽度为高度为第1个连接层的输入端接收A4中的所有特征图和C1中的所有特征图,第1个连接层通过Concatence方式连接A4和C1得到集合C2,第1个连接层的输出端输出C2,其中,C2中的每幅特征图的宽度为高度为C2中包含的特征图的总幅数为K'+K';第2个神经网络块的输入端接收C2中的所有特征图,第2个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为C3,其中,K'=128,C3中的每幅特征图的宽度为高度为第2个连接层的输入端接收A3中的所有特征图和C3中的所有特征图,第2个连接层通过Concatence方式连接A3和C3得到集合C4,第2个连接层的输出端输出C4,其中,C4中的每本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的单目图像深度预测方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{I

【技术特征摘要】
1.一种基于神经网络的单目图像深度预测方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取Q幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第q幅原始的单目图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实深度图像记为其中,Q为正整数,Q≥200,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}和的宽度,H表示{Iq(i,j)}和的高度,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;步骤1_2:构建神经网络:神经网络包括输入层、隐层和输出层;隐层包括编码网络框架和解码网络框架;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H;对于编码网络框架,其包括5个神经网络块、1个推理层和1个连接层,第1个神经网络块由依次设置的2个卷积层和1个最大池化层组成,第2个神经网络块由依次设置的2个卷积层和1个最大池化层组成,第3个神经网络块由依次设置的3个卷积层和1个最大池化层组成,第4个神经网络块由依次设置的3个卷积层和1个最大池化层组成,第5个神经网络块由依次设置的3个卷积层和1个最大池化层组成,推理层由依次设置的2个带孔卷积神经网络构成,其中,每个神经网络块中的每个卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,每个神经网络块中的每个最大池化层的步长为2,每个带孔卷积神经网络中的卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,每个带孔卷积神经网络的膨胀率为2;对于编码网络框架,第1个神经网络块的输入端接收输入层的输出端输出的原始输入图像,第1个神经网络块的输出端输出K幅特征图,将K幅特征图构成的集合记为A1,其中,K=64,A1中的每幅特征图的宽度为高度为符号为向下取整运算符号;第2个神经网络块的输入端接收A1中的所有特征图,第2个神经网络块的输出端输出K幅特征图,将K幅特征图构成的集合记为A2,其中,K=64,A2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收A2中的所有特征图,第3个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为A3,其中,K'=128,A3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收A3中的所有特征图,第4个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为A4,其中,K'=128,A4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收A4中的所有特征图,第5个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为A5,其中,K'=128,A5中的每幅特征图的宽度为高度为推理层的输入端接收A5中的所有特征图,推理层的输出端输出K'幅特征图,将K'幅特征图构成的集合记为B,其中,K'=128,B中的每幅特征图的宽度为高度为连接层的输入端接收A5中的所有特征图和B中的所有特征图,连接层通过Concatence方式连接A5和B得到集合C,连接层的输出端输出C,其中,C中的每幅特征图的宽度为高度为C中包含的特征图的总幅数为K'+K';对于解码网络框架,其包括5个神经网络块、5个连接层、4个独立的双线性上采样层,每个神经网络块由依次设置的1个卷积层和1个双线性上采样层组成,其中,每个神经网络块中的卷积层的卷积核尺寸为3×3、激活函数采用线性整流函数,第1个神经网络块中的双线性上采样层的目标的宽度设置为与A4中的特征图的宽度一致、高度设置为与A4中的特征图的高度一致,第2个神经网络块中的双线性上采样层的目标的宽度设置为与A3中的特征图的宽度一致、高度设置为与A3中的特征图的高度一致,第3个神经网络块中的双线性上采样层的目标的宽度设置为与A2中的特征图的宽度一致、高度设置为与A2中的特征图的高度一致,第4个神经网络块中的双线性上采样层的目标的宽度设置为与A1中的特征图的宽度一致、高度设置为与A1中的特征图的高度一致,第5个神经网络块中的双线性上采样层的目标的宽度设置为与原始输入图像的宽度一致、高度设置为与原始输入图像的高度一致,每个独立的双线性上采样层的目标的宽度设置为与原始输入图像的宽度一致、高度设置为与原始输入图像的高度一致;对于解码网络框架,第1个神经网络块的输入端接收C中的所有特征图,第1个神经网络块的输出端输出K'幅特征图,将K'幅特征图构成的集合记为C1,其中,K'=128,C1中的每幅特征图的宽度为高度为第1个连接层的输入端接收A4中的所有特征图和C1中的所有特征图,第1个连接层通过Co...

【专利技术属性】
技术研发人员:周武杰潘婷顾鹏笠张宇来向坚邱薇薇周扬
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1