The invention discloses a depth estimation method based on unsupervised convolutional neural network monocular scene, which comprises the following steps: obtaining the depth value of each pixel point of the target image; obtaining the camera pose value when the pixel coordinate of the target image is transferred to the next image; constructing the loss function; and performing depth estimation based on unsupervised condition random field residual convolutional neural network scene. The invention adopts the unsupervised method to solve the problem of difficult manual data annotation, saves manpower and improves economic benefits. The invention adopts the linear chain conditional random field idea to realize the feature expression of the original image. Combined with the unsupervised residual convolution neural network scene depth estimation model, the unsupervised conditional random field residual convolution neural network scene depth estimation model is constructed. The model of the invention is superior to the other three models in average relative error (REL) and accuracy (ACC).
【技术实现步骤摘要】
一种基于非监督的卷积神经网络单目场景深度估计方法
本专利技术涉及一种场景深度估计方法,特别是一种基于非监督的卷积神经网络单目场景深度估计方法。
技术介绍
计算机视觉主要是通过计算机以及相关视觉传感器对生物视觉的一种模拟。人们首先用相机获取外界图像,再利用计算机将图像转换成数字信号,实现了对图像的数字化处理,最终诞生了一门新的学科—计算机视觉,其涉及到众多的应用领域包括目标跟踪、图像分类、人脸识别、场景理解等。计算机视觉的研究目标是使计算机能像人一样具备观察环境、理解环境、自主适应环境的能力。然而,目前的计算机视觉技术大多数是针对数字图像进行处理的,由于在处理图像过程中缺失了真实场景的深度信息及相机的姿态信息,一定程度上会造成对场景错误的理解与识别。因此,如何利用深度信息及相机的姿态信息从图像中重建出场景的三维结构是计算机视觉中一个非常重要的硏究课题。目前,利用深度图进行三维场景重建是一条重要的途径,获取图像的深度信息主要有两种方法,传统的方法为通过硬件设备直接获取深度信息,如激光测距仪,但是这种设备制作困难、成本较高 ...
【技术保护点】
1.一种基于非监督的卷积神经网络单目场景深度估计方法,其特征在于:包括以下步骤:/nA、获取目标图像各像素点的深度值/nA1、假设输入一个场景中的连续三幅图像I
【技术特征摘要】
1.一种基于非监督的卷积神经网络单目场景深度估计方法,其特征在于:包括以下步骤:
A、获取目标图像各像素点的深度值
A1、假设输入一个场景中的连续三幅图像It-1、It、It+1,其中,It表示当前帧图像,It-1为前一帧图像,It+1为后一帧图像,下标t表示当前帧,并定义It为目标图像;
A2、用目标图像It作为单目深度估计残差卷积神经网络模型的输入,其中,单目深度估计残差卷积神经网络模型包括一层输入层、七层卷积层、七层反卷积层和四个残差项;则输入的目标图像It经过卷积层后得到的特征图结果用如下公式表示:
TL=f(wLHL-1+bL),L∈{1,2,...,L-1}(1)
HL+1=wL+1TL+bL+1,L∈{1,2,...,L-1}(2)
TL+1=f(HL-1+HL+1),L∈{1,2,...,L-1}(3)
其中,L表示卷积层的层数,wL和wL+1分别表示训练单目深度估计残差卷积神经网络模型第L-1层和第L+1层卷积层的权重值,bL为训练单目深度估计残差卷积神经网络模型的偏置值,f(·)表示单目深度估计残差卷积神经网络模型中的激活函数,HL-1和HL+1表示第L-1层和第L+1层卷积层输出的特征图;TL表示在第L层卷积层未通过残差项时的值,TL+1表示在第L+1层卷积层通过残差项激活后的值;
A3、在卷积层输出的最终特征图之后,添加一个深度线性回归函数,将特征图中的每一个像素点映射成对应的深度值,如公式(4)所示:
其中,G表示反卷积层的最后一层,wGd为训练单目深度估计残差卷积神经网络模型的权重,bGd表示偏置向量,HG表示通过最后一层反卷积层得到的特征图;表示得到的深度值;
B、获取目标图像上像素坐标转移到下一帧图像时的相机位姿值
利用位姿残差卷积神经网络模型计算当目标图像It中每一个点的像素坐标转移到下一帧图像It+1对应的像素坐标时,相机所对应的姿态值其中,位姿残差卷积神经网络模型由一层输入层、七层卷积层和两个残差项构成,具体步骤如下:
B1、假设给定连续两幅RGB的图像It、It+1且大小都为426×128×3,输入到位姿残差卷积神经网络模型中;
B2、通过位姿残差卷积神经网络模型七层卷积后,分别得到两张图像It、It+1对应大小为1×768的特征向量AX+b,其中A表示卷积核,X表示图像特征,即灰度矩阵,b表示偏置值;
B3、通过相机位姿估计算法,得到图像It到图像It+1的相机位姿值也就是旋转矩阵R和平移向量v,用六自由度表示,含义是图像It中像素坐标通过相机姿态转换值找到在图像It+1对应的像素坐标;
C、构建损失函数
C1、利用预测图像深度值相机运动位姿估计值目标图像It以及相机内置参数K作为输入,可以得到目标图像中的像素坐标点pt和下一帧图像中的像素坐标点pt+1之间的映射关系;此过程称为视图合成;如公式(5)所示;
其中,K表示相机内置参数,表示相机从t时刻运动到t+1时刻的位姿估计值,为像素坐标点pt的深度值;
C2、通过视图合成找到目标图像与下一帧图像各像素点之间的对应关系作为损失函数的无监督信号;因为图像中的坐标值都是离散值,且都为整数,为了保证It(pt+1)有像素值,故利用双线性插值的方法将It(pt+1)四领域值(左上角、左下角、右上角、右下角)进行比例转换得到表示坐标转换后的新图像;如公式(6)所示;
其中,ωij与pt+1和成线性关系,∑ωij=1,且ωij是双线性插值的参数,Np表示图像上像素点坐标p的邻域,i表示像素点坐标p邻域内纵轴方向上的线性插值计算,j表示像素点坐标p邻域内横轴方向上的线性插值计算;
C3、单目深度估计残差卷积神经网络模型和位姿残差卷积神经网络模型共同构成基于非监督的残差卷积神经网络场景深度估计模型,并利用视图合成得到基于非监督的残差卷积神经网络场景深度估计模...
【专利技术属性】
技术研发人员:刘洪波,岳晓彤,江同棒,张博,马茜,王乃尧,杨丽平,林正奎,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。