一种基于深度卷积神经网络的单目视觉深度估计方法技术

技术编号:20547502 阅读:42 留言:0更新日期:2019-03-09 20:14
本发明专利技术公开了一种基于深度卷积神经网络的单目视觉深度估计方法,其先构建深度卷积神经网络,其包括输入层、隐层和输出层;隐层包括编码框架和译码框架;然后使用训练集中的单目图像作为原始输入图像,输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像;接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,得到深度卷积神经网络训练模型及最优权值矢量和最优偏置项;再将待预测的单目图像输入到深度卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项,预测得到对应的预测深度图像;优点是其预测精度高。

【技术实现步骤摘要】
一种基于深度卷积神经网络的单目视觉深度估计方法
本专利技术涉及一种单目视觉深度估计技术,尤其是涉及一种基于深度卷积神经网络的单目视觉深度估计方法。
技术介绍
经济的高速发展带来了人们生活水平的不断提升,随着人们对好的生活质量的要求逐渐增强,交通的便利性也越来越好。汽车作为交通中的重要一环,其发展更加被重视。这几年人工智能大火,无人驾驶也是近年来较为热门的话题之一,并且在百度宣布无人驾驶车进入批量生产即将投入使用之后,无人驾驶的热潮持续提高。车前的单目视觉深度估计是无人驾驶领域的一部分,它可以有效的保障汽车行驶过程中的安全。单目视觉深度估计的方法主要分为传统的方法和深度学习的方法。传统的方法使用在深度预测的领域并没有取得令人满意的结果,其估计精度远低于实际应用中所需要的要求;深度学习的出现给予了单目视觉深度预测极大的帮助,借助于深度学习的方法,通过端到端训练,在使用大量数据集后机器可以不停的学到深度预测所需要的特征信息,进而不断提高它的结果精度,使得单目视觉深度预测的实际应用可以得到实现。如:Eigen等人首次将深度学习应用到了单目视觉深度估计任务中,其提出结合两个深度网络:粗规模网络预测全局深度分布和精细规模网络以局部细化深度图,粗规模网络首先在全局级别预测场景的深度,然后通过精细规模网络在局部区域内进行细化。该方法的两个尺度的输入都是原始图像,此外,粗规模网络的输出作为附加的第一层图像特征传递到精细规模网络,但是这种结合粗规模网络和精细规模网络的神经网络没有足够的深度来提取更多的深度信息以获得准确性更高的深度特征。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于深度卷积神经网络的单目视觉深度估计方法,其预测精度高。本专利技术解决上述技术问题所采用的技术方案为:一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第一conv_block网络块、第一identity_block网络块、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值本文档来自技高网...

【技术保护点】
1.一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Q

【技术特征摘要】
1.一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第一conv_block网络块、第一identity_block网络块、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值;对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第一conv_block网络块的输入端接收Z1中的所有特征图,第一conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为...

【专利技术属性】
技术研发人员:周武杰袁建中吕思嘉钱亚冠何成王海江
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1