利用深度学习对视频序列中单目视图深度估计优化方法技术

技术编号:19345852 阅读:26 留言:0更新日期:2018-11-07 15:17
本发明专利技术涉及一种利用深度学习对视频序列中单目视图深度估计优化方法,包括:步骤S1:通过一个深度估计神经网络对单目视图Lt进行深度估计,得到与Lt相同分辨率的深度图;步骤S2:将单目视图Lt与相邻帧的单目视图Lt+1作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,位姿变化包括相对位移和旋转;步骤S3:利用Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化对Lt进行重构,得到单目视图Lt重构后的视图Lt';步骤S4:通过特定卷积神经网络VGG‑16分别得到Lt和Lt'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络。与现有技术相比,本发明专利技术避免了深度信息采集的高昂代价。

Depth learning based optimization method for monocular view depth estimation in video sequences

The invention relates to an optimization method for depth estimation of monocular view in video sequence by using depth learning, which includes: depth estimation of monocular view Lt through a depth estimation neural network to obtain a depth map with the same resolution as Lt; and (2) taking monocular view Lt and monocular view Lt+1 of adjacent frames as units. The input of the pose estimation network is used to get the relative pose change of the camera between two frames, which includes relative displacement and rotation; _: Using the depth map of Lt and the relative pose change of the monocular view Lt and the monocular view Lt+1 of the adjacent frames to reconstruct Lt, the view Lt', which is reconstructed from the monocular view Lt, is obtained. Chapter 4: The feature maps of Lt and Lt'are obtained by specific convolution neural network VGG_16. The loss function is used to optimize the depth estimation neural network and pose estimation network by comparing the Euclidean distances of the feature maps and the pixel-level errors of the two views. Compared with the existing technology, the invention avoids the high cost of deep information collection.

【技术实现步骤摘要】
利用深度学习对视频序列中单目视图深度估计优化方法
本专利技术涉及一种视频处理技术,尤其是涉及一种利用深度学习对视频序列中单目视图深度估计优化方法。
技术介绍
3D场景解析是计算机视觉领域一个重要的研究课题,而深度估计是理解3D场景几何关系的重要方法。由于深度信息可以提供对象和环境丰富的表面特征,通常被运用于图像识别任务、3D建模、物体检测、机器人控制等多种应用。近年来,有监督深度学习的方法已经证明了神经网络在单目视图深度估计中的结果。然而,有监督的深度学习需要大量的深度真值数据进行训练,以达到较高的准确性,而在一系列环境中采集记录深度数据是一个很困难的事。这些数据的获取通常要求昂贵的硬件和精确的采集。像KITTI这样高认可度的数据集也只提供了稀疏的深度地图,并没有捕捉到图像中可见的高细节深度变化。同时,各类深度传感器也有自己的误差和噪声特性。当前大多深度估计方法都用了逐像素求差的损失函数,这个损失函数无法捕获输入及输出图像在感知上的差距。例如,两张一模一样的图像,只有1像素偏移上的差距,尽管从感知上这两幅图片一模一样,但用逐像素求差的方法来衡量的话,这俩图片会非常的不一样,导致损失函数波动较大。从而无法使神经网络参数达到最优。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种利用深度学习对视频序列中单目视图深度估计优化方法。本专利技术的目的可以通过以下技术方案来实现:一种利用深度学习对视频序列中单目视图深度估计优化方法,包括:步骤S1:通过一个深度估计神经网络对单目视图Lt进行深度估计,得到与Lt相同分辨率的深度图;步骤S2:将单目视图Lt与相邻帧的单目视图Lt+1作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,所述位姿变化包括相对位移和旋转;步骤S3:利用Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化对Lt进行重构,得到单目视图Lt重构后的视图Lt';步骤S4:通过特定卷积神经网络VGG-16分别得到Lt和Lt'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络。所述深度估计神经网络由卷积神经网络结合上采样和跳层连接构成。所述位姿估计网络采用全卷积网络的结构,所述步骤S2具体包括:步骤S21:对单目视图Lt与相邻帧的单目视图Lt+1进行尺寸一致化预处理;步骤S22:将预处理后的单目视图与相邻帧的单目视图进行合成后作为位姿估计网络的输入;步骤S23:,位姿估计网络输出为一个6自由度的相对位姿变化Tt→t+1。所述步骤S3中将Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化通过合成公式进行重构,其中,合成公式如下:p′t~KTt→t+1DLt(pt)K-1pt其中:pt和pt′分别为原始图Lt和重构视图Lt'的像素点,Tt→t+1为单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化,K为相机的内参矩阵,DLt为Lt的深度图;采用反向扭曲映射的方法来进行视图重构,在重构的过程中所以,从Lt出发,去寻找相对应的相邻帧中的点,若得到的相邻帧的点不属于像素点,则通过采用双线性插值的方法求得所对应非像素点的位置。所述损失函数为内容损失函数和感知损失函数的组合。所述步骤S4包括:步骤S41:通过Lt和Lt'逐像素的相减得到像素级上的损失,并利用Lt和Lt'在像素级上的损失构成内容损失函数:其中:为内容损失函数,p为像素索引,为可解释性掩模,λs为深度平滑损失的权重,为平滑性损失;步骤S42:将Lt和Lt'分别输入经过预训练的特定卷积神经网络VGG-16,将感知损失定义为原视图Lt和重建视图Lt’的特征图之间的欧氏距离:其中:Wij和Hij为VGG-16网络中特定层所得特征图的尺,为感知损失函数,x,y为像素的坐标,为VGG-16网络中的第i个卷积层的第j个卷积获得的特征图;步骤S43:通过内容损失函数和感知损失函数的组合,通过误差反向传递对深度图估计网络及位姿估计网络参数进行优化,得到可以对单目视图直接进行深度估计的神经网络模型。与现有技术相比,本专利技术具体以下有益效果:1)利用深度学习方法对视频序列中单目视图进行深度估计时,采用非监督的学习方法,不依靠视图的深度真值进行训练,而是通过试图重构的误差作为监督,避免了深度信息采集的高昂代价。2)网络不仅仅依靠低层次的像素信息作为损失函数,而是与预先训练的损失网络所得的感知损失函数相结合,通过以上方法训练出来的神经网络,在对视频序列中单目图像进行深度图估计时,所得深度图的精确度得到显著的提高。附图说明图1为本专利技术的主要步骤流程示意图;图2为本专利技术深度估计神经网络结构示意图;图3为本专利技术的损失网络的结构示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。一种利用深度学习对视频序列中单目视图深度估计优化方法,如图1所示,包括:步骤S1:通过一个深度估计神经网络对单目视图Lt进行深度估计,得到与Lt相同分辨率的深度图,其中,如图2所示,深度估计神经网络由卷积神经网络结合上采样和跳层连接构成。步骤S2:将单目视图Lt与相邻帧的单目视图Lt+1作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,位姿变化包括相对位移和旋转,其中,位姿估计网络采用全卷积网络的结构,步骤S2具体包括:步骤S21:对单目视图Lt与相邻帧的单目视图Lt+1进行尺寸一致化预处理;步骤S22:将预处理后的单目视图与相邻帧的单目视图进行合成后作为位姿估计网络的输入;步骤S23:,位姿估计网络输出为一个6自由度的相对位姿变化Tt→t+1。步骤S3:利用Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化对Lt进行重构,得到单目视图Lt重构后的视图Lt',其中,将Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化通过合成公式进行重构,其中,合成公式如下:p′t~KTt→t+1DLt(pt)K-1pt其中:pt和pt'分别为原始图Lt和重构视图Lt'的像素点,Tt→t+1为单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化,K为相机的内参矩阵,DLt为Lt的深度图;采用反向扭曲映射的方法来进行视图重构,在重构的过程中,重构的像素点很有可能会落入到不在(整数)像素点的位置。所以,从Lt出发,去寻找相对应的相邻帧中的点,这样能够确保通过反向扭曲得到的重建视图Lt’中的每一个点都有赋值,如果得到的相邻帧的点不属于(整数)像素点,可以通过采用双线性插值的方法求得所对应非像素点的位置。步骤S4:通过特定卷积神经网络VGG-16分别得到Lt和Lt'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络,其中,如图3所示,损失函数为内容损失函数和感知损失函数的组合。步骤S4包括:步骤S41:通过Lt和Lt'逐像素的相减得到像素级上的损失,为了克服梯度消失情况,引入光滑性损失,允许直接从较大的空间区域导出梯度。并利用Lt和Lt'在像素级上的损失构成内容损失函数:其本文档来自技高网...

【技术保护点】
1.一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,包括:步骤S1:通过一个深度估计神经网络对单目视图Lt进行深度估计,得到与Lt相同分辨率的深度图;步骤S2:将单目视图Lt与相邻帧的单目视图Lt+1作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,所述位姿变化包括相对位移和旋转;步骤S3:利用Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化对Lt进行重构,得到单目视图Lt重构后的视图Lt';步骤S4:通过特定卷积神经网络VGG‑16分别得到Lt和Lt'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络。

【技术特征摘要】
1.一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,包括:步骤S1:通过一个深度估计神经网络对单目视图Lt进行深度估计,得到与Lt相同分辨率的深度图;步骤S2:将单目视图Lt与相邻帧的单目视图Lt+1作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,所述位姿变化包括相对位移和旋转;步骤S3:利用Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化对Lt进行重构,得到单目视图Lt重构后的视图Lt';步骤S4:通过特定卷积神经网络VGG-16分别得到Lt和Lt'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络。2.根据权利要求1所述的一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,所述深度估计神经网络由卷积神经网络结合上采样和跳层连接构成。3.根据权利要求1所述的一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,所述位姿估计网络采用全卷积网络的结构,所述步骤S2具体包括:步骤S21:对单目视图Lt与相邻帧的单目视图Lt+1进行尺寸一致化预处理;步骤S22:将预处理后的单目视图与相邻帧的单目视图进行合成后作为位姿估计网络的输入;步骤S23:,位姿估计网络输出为一个6自由度的相对位姿变化Tt→t+1。4.根据权利要求1所述的一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,所述步骤S3中将Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化通过合成公式...

【专利技术属性】
技术研发人员:方志军王安杰高永彬戴仁月
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1