The invention relates to an optimization method for depth estimation of monocular view in video sequence by using depth learning, which includes: depth estimation of monocular view Lt through a depth estimation neural network to obtain a depth map with the same resolution as Lt; and (2) taking monocular view Lt and monocular view Lt+1 of adjacent frames as units. The input of the pose estimation network is used to get the relative pose change of the camera between two frames, which includes relative displacement and rotation; _: Using the depth map of Lt and the relative pose change of the monocular view Lt and the monocular view Lt+1 of the adjacent frames to reconstruct Lt, the view Lt', which is reconstructed from the monocular view Lt, is obtained. Chapter 4: The feature maps of Lt and Lt'are obtained by specific convolution neural network VGG_16. The loss function is used to optimize the depth estimation neural network and pose estimation network by comparing the Euclidean distances of the feature maps and the pixel-level errors of the two views. Compared with the existing technology, the invention avoids the high cost of deep information collection.
【技术实现步骤摘要】
利用深度学习对视频序列中单目视图深度估计优化方法
本专利技术涉及一种视频处理技术,尤其是涉及一种利用深度学习对视频序列中单目视图深度估计优化方法。
技术介绍
3D场景解析是计算机视觉领域一个重要的研究课题,而深度估计是理解3D场景几何关系的重要方法。由于深度信息可以提供对象和环境丰富的表面特征,通常被运用于图像识别任务、3D建模、物体检测、机器人控制等多种应用。近年来,有监督深度学习的方法已经证明了神经网络在单目视图深度估计中的结果。然而,有监督的深度学习需要大量的深度真值数据进行训练,以达到较高的准确性,而在一系列环境中采集记录深度数据是一个很困难的事。这些数据的获取通常要求昂贵的硬件和精确的采集。像KITTI这样高认可度的数据集也只提供了稀疏的深度地图,并没有捕捉到图像中可见的高细节深度变化。同时,各类深度传感器也有自己的误差和噪声特性。当前大多深度估计方法都用了逐像素求差的损失函数,这个损失函数无法捕获输入及输出图像在感知上的差距。例如,两张一模一样的图像,只有1像素偏移上的差距,尽管从感知上这两幅图片一模一样,但用逐像素求差的方法来衡量的话,这俩图片会非常的不一样,导致损失函数波动较大。从而无法使神经网络参数达到最优。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种利用深度学习对视频序列中单目视图深度估计优化方法。本专利技术的目的可以通过以下技术方案来实现:一种利用深度学习对视频序列中单目视图深度估计优化方法,包括:步骤S1:通过一个深度估计神经网络对单目视图Lt进行深度估计,得到与Lt相同分辨率的深度图;步骤S2:将单目视 ...
【技术保护点】
1.一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,包括:步骤S1:通过一个深度估计神经网络对单目视图Lt进行深度估计,得到与Lt相同分辨率的深度图;步骤S2:将单目视图Lt与相邻帧的单目视图Lt+1作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,所述位姿变化包括相对位移和旋转;步骤S3:利用Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化对Lt进行重构,得到单目视图Lt重构后的视图Lt';步骤S4:通过特定卷积神经网络VGG‑16分别得到Lt和Lt'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络。
【技术特征摘要】
1.一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,包括:步骤S1:通过一个深度估计神经网络对单目视图Lt进行深度估计,得到与Lt相同分辨率的深度图;步骤S2:将单目视图Lt与相邻帧的单目视图Lt+1作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,所述位姿变化包括相对位移和旋转;步骤S3:利用Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化对Lt进行重构,得到单目视图Lt重构后的视图Lt';步骤S4:通过特定卷积神经网络VGG-16分别得到Lt和Lt'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络。2.根据权利要求1所述的一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,所述深度估计神经网络由卷积神经网络结合上采样和跳层连接构成。3.根据权利要求1所述的一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,所述位姿估计网络采用全卷积网络的结构,所述步骤S2具体包括:步骤S21:对单目视图Lt与相邻帧的单目视图Lt+1进行尺寸一致化预处理;步骤S22:将预处理后的单目视图与相邻帧的单目视图进行合成后作为位姿估计网络的输入;步骤S23:,位姿估计网络输出为一个6自由度的相对位姿变化Tt→t+1。4.根据权利要求1所述的一种利用深度学习对视频序列中单目视图深度估计优化方法,其特征在于,所述步骤S3中将Lt的深度图,以及单目视图Lt与相邻帧的单目视图Lt+1的相对位姿变化通过合成公式...
【专利技术属性】
技术研发人员:方志军,王安杰,高永彬,戴仁月,
申请(专利权)人:上海工程技术大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。