一种单目视觉深度估计方法技术

技术编号:20567014 阅读:16 留言:0更新日期:2019-03-14 09:38
本发明专利技术公开了一种单目视觉深度估计方法,其先构建卷积神经网络,其包括输入层、隐层和输出层;隐层包括编码框架、译码框架和上采样框架;然后使用训练集中的单目图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像;接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,得到卷积神经网络训练模型及最优权值矢量和最优偏置项;再将待预测的单目图像输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项,预测得到对应的预测深度图像;优点是其预测精度高。

【技术实现步骤摘要】
一种单目视觉深度估计方法
本专利技术涉及一种图像信号处理技术,尤其是涉及一种单目视觉深度估计方法。
技术介绍
经济的高速发展带来了人们生活水平的不断提升,随着人们对好的生活质量的要求逐渐增强,交通的便利性也越来越好。汽车作为交通中的重要一环,其发展更加被重视。在人工智能大火的如今,无人驾驶也是近年来较为热门的话题之一,并且在百度宣布无人驾驶车进入批量生产即将投入使用之后,无人驾驶的热潮持续提高。车前的单目视觉深度估计是无人驾驶领域的一部分,它可以有效地保障汽车行驶过程中的安全。单目视觉深度估计的方法主要有传统方法和深度学习方法。在深度学习方法出现之前,依赖于传统方法的深度估计得出的结果远不能满足人们的最低的期望标准;在深度学习方法出现后,在深度学习中使用端到端的训练方法,使用大量的训练数据,进行学习后深度估计得出的结果精度得到了极大的提升。Eigen等人在文献《DepthMapPredictionfromaSingleImageusingaMulti-ScaleDeepNetwork》(《基于多尺度深度网络的单幅图像深度图预测》)中提出的神经网络的基础上进行了进一步提升,《基于多尺度深度网络的单幅图像深度图预测》提出使用两个尺度的神经网络来做深度估计:粗规模网络预测全局深度分布和精细规模网络以局部细化深度图,而Eigen等人在这两个尺度的神经网络的基础上将其拓展到三个尺度。该三个尺度的神经网络架构首先使用第一个尺度来根据整个图像区域预测出一个较为粗略的结果,然后使用第二个尺度对其在中等分辨率的基础上进行优化,最后使用第三个尺度对结果上采样后做细化提炼获得预测深度图,但是,该三个尺度的神经网络架构是针对深度预测、表面法线估计和语义分割这三种不同的计算机视觉任务的联合预测而提出的,若将其单独用于深度估计,则深度估计的准确性却不是很高,而且最终得到的预测深度图只有原本图像尺寸的一半,而尺寸的不一致性不利于对其中深度信息的直接使用。
技术实现思路
本专利技术所要解决的技术问题是提供一种单目视觉深度估计方法,其预测精度高。本专利技术解决上述技术问题所采用的技术方案为:一种单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥100,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建端到端的卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架、译码框架和上采样框架;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第二卷积层、第二批规范化层、第二激活层、第三卷积层、第三批规范化层、第一Concatenate融合层、第三激活层、第二最大池化层、第四卷积层、第四批规范化层、第四激活层、第五卷积层、第五批规范化层、第二Concatenate融合层、第五激活层、第三最大池化层、第一带孔卷积层、第六批规范化层、第六激活层、第二带孔卷积层、第七批规范化层、第三Concatenate融合层、第七激活层、第四最大池化层、第三带孔卷积层、第八批规范化层、第八激活层组成;对于译码框架,其由依次设置的第一反卷积层、第九批规范化层、第四Concatenate融合层、第九激活层、第六卷积层、第十批规范化层、第十激活层、第二反卷积层、第十一批规范化层、第五Concatenate融合层、第十一激活层、第七卷积层、第十二批规范化层、第十二激活层、第三反卷积层、第十三批规范化层、第六Concatenate融合层、第十三激活层、第八卷积层、第十四批规范化层、第十四激活层、第四反卷积层、第十五批规范化层、第七Concatenate融合层组成;对于上采样框架,其由依次设置的第一上采样层、第十卷积层、第十七批规范化层、第十七激活层、第二上采样层、第十一卷积层、第十八批规范化层、第十八激活层、第三上采样层、第十二卷积层、第十九批规范化层、第十九激活层、第四上采样层、第十三卷积层、第二十批规范化层、第二十激活层组成;对于输出层,其由依次设置的第十五激活层、第九卷积层、第十六批规范化层、第十六激活层组成,其中,第一卷积层至第十三卷积层、第一带孔卷积层至第三带孔卷积层、第一反卷积层至第四反卷积层各自的卷积核大小为3×3,第一卷积层的卷积核个数为32、第二卷积层和第三卷积层的卷积核个数为64、第四卷积层和第五卷积层的卷积核个数为128、第一带孔卷积层和第二带孔卷积层的卷积核个数为256、第三带孔卷积层的卷积核个数为512、第一反卷积层和第六卷积层的卷积核个数为256、第二反卷积层和第七卷积层的卷积核个数为128、第三反卷积层和第八卷积层的卷积核个数为64、第四反卷积层的卷积核个数为32、第九卷积层的卷积核个数为1、第十卷积层的卷积核个数为256、第十一卷积层的卷积核个数为128、第十二卷积层的卷积核个数为64、第十三卷积层的卷积核个数为32,第一卷积层至第十三卷积层、第一带孔卷积层至第三带孔卷积层各自的卷积步长采用默认值,第一反卷积层至第四反卷积层各自的卷积步长为2×2,第一批规范化层至第二十批规范化层的参数采用默认值,第一激活层至第二十激活层的激活函数采用ReLu,第一最大池化层至第四最大池化层的池化步长为2×2,第一上采样层至第四上采样层的采样步长为2×2;对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第二卷积层的输入端接收Z1中的所有特征图,第二卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为高度为第二批规范化层的输入端接收J2中的所有特征图,第二批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为高度为第二激活层的输入端接收P2中的所有特征图,第二激活层的输本文档来自技高网
...

【技术保护点】
1.一种单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Q

【技术特征摘要】
1.一种单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥100,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建端到端的卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架、译码框架和上采样框架;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第二卷积层、第二批规范化层、第二激活层、第三卷积层、第三批规范化层、第一Concatenate融合层、第三激活层、第二最大池化层、第四卷积层、第四批规范化层、第四激活层、第五卷积层、第五批规范化层、第二Concatenate融合层、第五激活层、第三最大池化层、第一带孔卷积层、第六批规范化层、第六激活层、第二带孔卷积层、第七批规范化层、第三Concatenate融合层、第七激活层、第四最大池化层、第三带孔卷积层、第八批规范化层、第八激活层组成;对于译码框架,其由依次设置的第一反卷积层、第九批规范化层、第四Concatenate融合层、第九激活层、第六卷积层、第十批规范化层、第十激活层、第二反卷积层、第十一批规范化层、第五Concatenate融合层、第十一激活层、第七卷积层、第十二批规范化层、第十二激活层、第三反卷积层、第十三批规范化层、第六Concatenate融合层、第十三激活层、第八卷积层、第十四批规范化层、第十四激活层、第四反卷积层、第十五批规范化层、第七Concatenate融合层组成;对于上采样框架,其由依次设置的第一上采样层、第十卷积层、第十七批规范化层、第十七激活层、第二上采样层、第十一卷积层、第十八批规范化层、第十八激活层、第三上采样层、第十二卷积层、第十九批规范化层、第十九激活层、第四上采样层、第十三卷积层、第二十批规范化层、第二十激活层组成;对于输出层,其由依次设置的第十五激活层、第九卷积层、第十六批规范化层、第十六激活层组成,其中,第一卷积层至第十三卷积层、第一带孔卷积层至第三带孔卷积层、第一反卷积层至第四反卷积层各自的卷积核大小为3×3,第一卷积层的卷积核个数为32、第二卷积层和第三卷积层的卷积核个数为64、第四卷积层和第五卷积层的卷积核个数为128、第一带孔卷积层和第二带孔卷积层的卷积核个数为256、第三带孔卷积层的卷积核个数为512、第一反卷积层和第六卷积层的卷积核个数为256、第二反卷积层和第七卷积层的卷积核个数为128、第三反卷积层和第八卷积层的卷积核个数为64、第四反卷积层的卷积核个数为32、第九卷积层的卷积核个数为1、第十卷积层的卷积核个数为256、第十一卷积层的卷积核个数为128、第十二卷积层的卷积核个数为64、第十三卷积层的卷积核个数为32,第一卷积层至第十三卷积层、第一带孔卷积层至第三带孔卷积层各自的卷积步长采用默认值,第一反卷积层至第四反卷积层各自的卷积步长为2×2,第一批规范化层至第二十批规范化层的参数采用默认值,第一激活层至第二十激活层的激活函数采用ReLu,第一最大池化层至第四最大池化层的池化步长为2×2,第一上采样层至第四上采样层的采样步长为2×2;对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第二卷积层的输入端接收Z1中的所有特征图,第二卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J2,其中,J2中的每幅特征图的宽度为高度为第二批规范化层的输入端接收J2中的所有特征图,第二批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为高度为第二激活层的输入端接收P2中的所有特征图,第二激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为H2,其中,H2中的每幅特征图的宽度为高度为第三卷积层的输入端接收H2中的所有特征图,第三卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为J3,其中,J3中的每幅特征图的宽度为高度为第三批规范化层的输入端接收J3中的所有特征图,第三批规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为高度为第一Concatenate融合层的输入端接收P3中的所有特征图和H2中的所有特征图,第一Concatenate融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第三激活层的输入端接收C1中的所有特征图,第三激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H3,其中,H3中的每幅特征图的宽度为高度为第二最大池化层的输入端接收H3中的所有特征图,第二最大池化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Z2,其中,Z2中的每幅特征图的宽度为高度为第四卷积层的输入端接收Z2中的所有特征图,第四卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J4,其中,J4中的每幅特征图的宽度为高度为第四批规范化层的输入端接收J4中的所有特征图,第四批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为高度为第四激活层的输入端接收P4中的所有特征图,第四激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为H4,其中,H4中的每幅特征图的宽度为高度为第五卷积层的输入端接收H4中的所有特征图,第五卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为J5,其中,J5中的每幅特征图的宽度为高度为第五批规范化层的输入端接收J5中的所有特征图,第五批规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为高度为第二Concatenate融合层的输入端接收P5中的所有特征图和H4中的所有特征图,第二Concatenate融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为高度为第五激活层的输入端接收C2中的所有特征图,第五激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H5,其中,H5中的每幅特征图的宽度为高度为第三最大池化层的输入端接收H5中的所有特征图,第三最大池化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为Z3,其中,Z3中的每幅特征图的宽度为高度为第一带孔卷积层的输入端接收Z3中的所有特征图,第一带孔卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K1,其中,K1中的每幅特征图的宽度为高度为第六批规范化层的输入端接收K1中的所有特征图,第六批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为高度为第六激活层的输入端接收P6中的所有特征图,第六激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为H6,其中,H6中的每幅特征图的宽度为高度为第二带孔卷积层的输入端接收H6中的所有特征图,第二带孔卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为K2,其中,K2中的每幅特征图的宽度为高度为第七批规范化层的输入端接收K2中的所有特征图,第七批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P7,其中,P7中的每幅特征图的宽度为高度为第三Concatenate融合层的输入端接收P7中的所有特征图和H6中的所有特征图,第三Concatenate融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为高度为第七激活层的输入端接收C3中的所有特征图,第七激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H7,其中,H7中的每幅特征图的宽度为高度为第四最大池化层的输入端接收H7中的所有特征图,第四最大池化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Z4,其中,Z4中的每幅特征图的宽度为高度为第三带孔卷积层的输入端接收Z4中的所有特征图,第三带孔卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为K3,其中,K3中的每幅特征图的宽度为高度为第八批规范化层的输入端接收K3中的所有特征图,第八批规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P8,其中,P8中的每幅特征图的宽度为高度为第八激活层的输入端接收P8中的所有特征图,第八激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为H8,H8也即为编码框架的输出,其中,H8中的每幅特征图的宽度为高度为对于译码框架,第一反卷积层的输入端接收编码框架的输出即H8中的所有特征图,第一反卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为F1,其中,F1中的每幅特征图的宽度为高度为第九批规范化层的输入端接收F1中的所有特征图,第九批规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P9,其中,P9...

【专利技术属性】
技术研发人员:周武杰袁建中吕思嘉钱亚冠向坚张宇来
申请(专利权)人:浙江科技学院
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1