当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于深度神经网络的双目深度估计方法技术

技术编号:20427686 阅读:26 留言:0更新日期:2019-02-23 09:22
本发明专利技术涉及一种基于深度神经网络的双目深度估计方法,步骤如下:1)对输入的左、右视点图像通过预处理使数据增强;2)构建双目深度估计的多尺度网络模型,模型包含多个卷积层、激活层、残差连接、多尺度池化连接以及线性上采样层;3)设计损失函数使其在不断的训练过程中取得最小化结果,从而获得最优的网络权重;4)将待处理的图像输入到网络模型中,得到对应的深度图,并不断重复以上这几个步骤直到网络收敛或达到训练次数。本发明专利技术采用无监督学习的思想,仅利用双目相机获取的左右视点图像作为网络输入。该网络的自适应性设计将相机内外参数设置为单独的模型参数,因此能够在不需要修改网络的前提下适用于多个相机系统。

【技术实现步骤摘要】
一种基于深度神经网络的双目深度估计方法
本专利技术属于多媒体图像处理领域,涉及到计算机视觉、深度学习技术,由其是一种基于深度神经网络的双目深度估计方法。技术背景深度估计一直是计算机视觉领域的热门研究方向,深度图提供的三维数据为三维重建、增强现实(AugmentedReality,AR)、智能导航等应用的实现提供了所需信息。同时,深度图表达的位置关系在众多图像任务中极为重要,能够使得图像处理算法进一步简化。目前较为常见的深度估计主要分为两类,即单目深度估计和双目深度估计。单目深度估计方法只使用一个相机,传统算法中相机捕获连续的图像帧,通过帧间的运动模型进行投影变换从而估计图像深度。基于深度学习的单目深度估计则是利用带有真实深度信息的数据集训练深度神经网络,利用学习得到的深度神经网络来回归深度。此类算法设备简单,成本较低,可适用于动态场景。但同时因为缺少尺度信息,通常深度信息不够准确,在未知场景中性能往往严重退化。双目估计方法使用两台经过校准的摄像头,从两个不同的视角观测同一物体。找到不同视角下的同一空间点,计算出对应像素点间的视差,然后通过三角测量即可将视差转换为深度。传统的双目估计采用立体匹配算法,计算量较大,对低纹理场景效果较差。基于深度学习的双目深度估计多采用监督学习方法,由于神经网络强大的学习能力,比起传统方法,目前此类方法不管是在精度还是速度上都有了极大的提升。然而有监督学习通常过于依赖真实值,但真实值可能存在误差和噪音、深度信息较为稀疏、硬件设备很难校准等问题,从而使得估计出的深度值不够准确。无监督学习方法一直被认为是人工智能能够在真实世界真正有效地自我学习的研究方向,因此,近年来基于无监督学习的图像深度估计方法成为研究热点。
技术实现思路
本专利技术的目的是提出一种基于深度神经网络的双目深度估计方法,采用无监督学习的思想,仅利用双目相机获取的左右视点图像作为网络输入,而不需预先获取输入图像的深度信息作为训练标签。同时,该网络的自适应性设计将相机内外参数设置为单独的模型参数,因此能够在不需要修改网络的前提下适用于多个相机系统。此外,该神经网络基本不受光照、噪声等影响,鲁棒性较高。实现本专利技术目的的技术方案如下:一种基于深度神经网络的双目深度估计方法,步骤如下:1)对输入的左右视点图像进行切割、变换等相应的图像预处理进行数据增强,包括轻度的仿射变形、随机水平旋转、随机尺度抖动、随机对比度、亮度、饱和度和锐度等等,从而进一步增加样本数量,有利于网络参数的训练优化,增强网络的泛化能力;2)构建双目深度估计的多尺度网络模型,模型包含多个卷积层、激活层、残差连接、多尺度池化连接以及线性上采样层等。(a)网络采用三个残差网络结构对输入进行多尺度卷积,每个残差模块包括两个卷积层和一个恒等映射。除了第一个卷积核为3*3,其余均为7*7大小。(b)网络中第二层、第六层和第十四层为多尺度池化模块,对第二层和第六层输出进行平均池化操作,分别为步长为4、核大小为4*4和步长为2、核大小为2*2,并与第十四层输出一同进行1*1的卷积。(c)左右视图通过前端网络处理,通过多尺度池化模块后采用特征相关操作关联左右视图的特征信息,计算两图间特征相关性:c(x1,x2)=∑o∈[-k,k]×[-k,k]<fl(x1+o),fr(x2+o)>c为左图特征以x1为中心的图像块与右图特征以x2为中心的图像块的相关性,fl为左图特征,fr为右图特征,图像块大小为k*k。(d)之后网络根据相关性特征恢复图像原始分辨率,利用反卷积、上采样等获取不同尺度深度图。线性上采样操作中对于上一层输出采用双线性插值生成图像,并利用残差学习与上层上采样层进行跃层连接,最终将图像恢复到原始大小。3)根据设计的网络模型设置初始化参数,设计损失函数使其在不断的训练过程中取得最小化结果,从而获得最优的网络权重。网络输入的左右视图像素值分别表示为Il、Ir,当网络获得左图的预测深度图时,利用相机内参矩阵K-1将在图像坐标系下的Ir转换为相机坐标系,再利用外参矩阵T将其转换到左图的相机坐标系下,之后通过内参矩阵K再次转到左图的图像坐标系,此时获得过渡图具体公式如下所示:其中pr为相应图像像素值。投影变换使得过渡图中像素坐标为连续值,因此利用4邻域插值法确定每个坐标的像素值,最终获取目标图式中w正比于目标点与临近点的空间距离,且∑a,bwab=1。采用Huber损失函数来构造重建损失函数4)将待处理的图像输入到网络模型中,得到对应的深度图,并不断重复以上这几个步骤直到网络收敛或达到训练次数。本专利技术提出了一个基于无监督学习的深度神经网络,针对无真实深度信息的左右图像进行网络模型训练,从而获取单目深度图。本专利技术采用了双目相机多视角的优势,利用卷积神经网络这种多层表示形式的表示学习方法,实现了从双目图像的输入到单目深度图像的输出映射。网络模型中通过多层下采样操作来获取不同尺度感受野,利用残差结构对输入图像进行特征提取,并采用多尺度池化模块强化图像的局部纹理细节信息,提高网络模型的准确性和鲁棒性。上采样层采用双线性插值法,再次利用残差结构学习多个上采样层信息,减少恢复图像大小过程中的信息损耗,进一步确保深度估计准确性。本专利技术的优点和有益效果:1、本专利技术提出的基于深度神经网络的双目深度估计方法基于无监督学习方法,利用深度卷积网络强大的学习能力确保预测深度值的精确性。2、本专利技术多次使用残差连接进行特征提取,在上采样中利用跃层连接完成多尺度信息融合,一定程度上减少传统卷积在信息传递中的损耗和丢失,保证了信息的完整性并大大提高网络收敛速度。3、本专利技术通过多次下采样获得不同尺度图像,并利用多尺度池化模块获取图像的不同感受野来强化局部纹理细节。4、本专利技术网络中的特征相关操作进行左右视图的特征关联,不易受到噪声影响,提高了该网络模型的鲁棒性。5、本专利技术网络的输入图像不带有真实的深度信息,网络通过预测深度图、相机参数以及原始输入计算目标图,通过构建目标图与原始输入间的差值构建损失函数以实现网络参数优化,因此整个网络能够以无监督学习的方式完成训练。6、相机的参数信息作为网络参数的一部分在网络外部设置,因此该模型适用于多种不同配置相机系统,自适应能力强。附图说明图1为双目深度估计的神经网络模型图。具体实施方式下面结合附图并通过具体实施例对本专利技术作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本专利技术的保护范围。1)对输入的左右视点图像进行切割、变换等相应的图像预处理进行数据增强。本专利技术采用双目相机获取的左右视角的图像作为网络输入,可输出左相机坐标系或右相机坐标系下的单目深度图。为了方便叙述,本文提到的输出单目深度图均为左图的深度图。本专利技术中的输入图像需要左右视角的RGB图,因此采用人工合成数据集SceneFlow和真实环境下的KITTI2015数据集中的部分数据作为训练数据。大数据集SceneFlow数据集中包含39000张960×540分辨率的双目图像和对应的深度图,大量的训练数据能够保证卷积神经网络的学习能力。但由于SceneFlow数据集为人工合成图像,因此与现实世界下采集的真实图像具有一定差异性。为了加强模型在日常生活场景中的应用效果,本例中选择将模型在本文档来自技高网
...

【技术保护点】
1.一种基于深度神经网络的双目深度估计方法,步骤如下:1)对输入的左、右视点图像通过预处理使数据增强;2)构建双目深度估计的多尺度网络模型,模型包含多个卷积层、激活层、残差连接、多尺度池化连接以及线性上采样层;3)根据设计的多尺度网络模型设置初始化参数,设计损失函数使其在不断的训练过程中取得最小化结果,从而获得最优的网络权重;4)将待处理的图像输入到网络模型中,得到对应的深度图,并不断重复以上这几个步骤直到网络收敛或达到训练次数。

【技术特征摘要】
1.一种基于深度神经网络的双目深度估计方法,步骤如下:1)对输入的左、右视点图像通过预处理使数据增强;2)构建双目深度估计的多尺度网络模型,模型包含多个卷积层、激活层、残差连接、多尺度池化连接以及线性上采样层;3)根据设计的多尺度网络模型设置初始化参数,设计损失函数使其在不断的训练过程中取得最小化结果,从而获得最优的网络权重;4)将待处理的图像输入到网络模型中,得到对应的深度图,并不断重复以上这几个步骤直到网络收敛或达到训练次数。2.根据权利要求1所述的基于深度神经网络的双目深度估计方法,其特征在于:所述的多尺度网络模型采用三个残差网络结构对输入进行多尺度卷积,每个残差模块包括两个卷积层和一个恒等映射,网络中第二层、第六层和第十四层为多尺度池化模块,对第二层和第六层输出进行平均池化操作,并与第十四层输出一同进行1*1的卷积。3.根据权利要求2所述的基于深度神经网络的双目深度估计方法,其特征在于:左右视图通过前端网络处理,通过多尺度池化模块后采用特征相关操作关联左右视图的特征信息,计算两图间特征相关性:c(x1,x2)=∑o∈[-k,k]×[-k,k]<fl(x1+o),fr(x2+o)>c为左图特征以x1为中心的图像块与右图特征以x2为中心的...

【专利技术属性】
技术研发人员:侯永宏吕晓冬许贤哲陈艳芳赵健
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1