一种面向三维场景重建的高精度单目深度估计系统及方法技术方案

技术编号:35421378 阅读:40 留言:0更新日期:2022-11-03 11:22
本发明专利技术公开一种面向三维场景重建的高精度单目深度估计系统及方法,属于图像处理技术领域,在编码器处通过引入Vision Transformers主干网络,ViT主干网络代替卷积网络作为密集预测的主干架构,以恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域,以减少卷积网络中下采样过程中的信息丢失,从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”,这些“跳跃”可以很好地在高频分量中捕获,从而达到强化深度信息图边缘的效果。通过对ViT和小波变换的引入,能够在不使得网络计算更复杂的前提下,又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取,提高单目深度估计的精度。精度。精度。

【技术实现步骤摘要】
一种面向三维场景重建的高精度单目深度估计系统及方法


[0001]本专利技术涉及图像处理
,尤其涉及一种面向三维场景重建的高精度单目深度估计系统及方法。

技术介绍

[0002]在计算机视觉中,三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视图的信息不完全,因此三维重建需要利用经验知识。而多视图的三维重建相对比较容易,其方法是先对摄像机进行标定,即计算出摄像机的图象坐标系与世界坐标系的关系。然后利用多个二维图像中的信息重建出三维信息,在这个过程中,如何准确获得深度信息是能否从二维图像重建出三维信息的关键。然而大多数应用场景中,机器往往只有一个摄像机对三维场景图像进行采集。因此,单目深度估计技术在三维场景重建中显得至关重要。
[0003]单目深度估计技术在许多实时三维场景重建中有着广泛的应用,比如自动驾驶、虚拟现实、增强现实等,因此深度估计的精度与效率都很重要。目前大部分深度估计都是基于二维RGB图像到RGB

D图像的转化估计,虽然有很多设备可以直接获取像素级的地面真值深度,但是这些深度感知设备往往造价昂贵。早期的深度估计算法大多数有监督的,但训练这些算法需要获取成本很高的地面真值。随着计算机算力和深度学习算法挖掘信息能力的增强,单目深度估计的自监督算法在实现上具有了可能性。相比有监督算法,自监督算法不需要地面真值,只需部署普通的单目摄像头即可实现深度估计。需要注意的是,自监督算法虽然不像深度感知设备那样可以获得绝对深度信息,相对的深度信息已经足够感知周围事物的相对位置关系。近年来,自监督方法因其不需要地面真值进行训练,引起了许多关注,并取得了显著的成果。
[0004]单目深度估计涉及现有的所有密集预测体系结构几乎都是基于卷积网络的,遵循着从编码器到解码器的基本逻辑。大多数自监督单目深度估计的神经网络使用的是U

net架构,编码器和解码器层之间有跳过连接。该架构依然由标准的神经网络组件组成:卷积、加法、求和以及乘法。骨干架构的选择对整个模型的能力有很大的影响,因为在编码器中丢失的任何信息都不可能在编码器中恢复。编码器逐步向下采样提取多尺度特征。下采样可以扩大接收域,将低级特征分组抽象为高级特征,同时保证网络内存和计算需求易于处理。但是上述网络架构会造成特征分辨率和细粒度在模型较深阶段丢失,这对于图像分类任务可能无关紧要,但对于密集预测来说丢失特征和细粒度会造成预测性能的明显下降。
[0005]现有的深度信息恢复方法还存在以下缺陷:编码器要通过对输入图片进行下采样来增加接收域,但在这个过程中会丢失图像的特征和细节,而这些特征和细节是在解码过程中无法恢复的。图像的边界往往含有丰富的深度信息,但是经过神经网络上采样解码之后这部分信息会有所弱化。性能优良的卷积神经网络解码器往往包含大量参数和浮点运算。

技术实现思路

[0006]为解决上述问题,本专利技术提供一种面向三维场景重建的高精度单目深度估计系统,包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络,所述视觉转换器网络为ViT主干网络,将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取,并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络;所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络,深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息,位姿估计网络负责计算出前后帧之间的物体运动轨迹;所述小波逆变换解码器网络,将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样,最终输出深度信息图。
[0007]一种面向三维场景重建的高精度单目深度估计方法,包括有以下步骤:步骤一, 输入图像,ViT主干网络通过将输入的图像分割成所有大小为像素的不重叠的正方形补丁,从图像中提取一个补丁嵌入,这些补丁被展成向量,并使用线性投影单独嵌入;将单独嵌入到特征空间的图像补丁,或者从图像中提取的深度特征,称之为标记;转化器使用串联的多头自注意转换标记集合,标记彼此关联以转换表示;步骤二,标记通过多个转换器传递,将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示;步骤三,然后基于深度估计网络和位姿估计网络,通过预测ViT架构的瓶颈尺度上的粗略估计,重建一个深度估计信息图;步骤四,最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图,得到最终的深度信息图。
[0008]进一步改进在于,所述步骤一ViT主干网络的编码器在所有转换器阶段都保持初始嵌入的空间分辨率。
[0009]进一步改进在于,所述步骤一在初始嵌入后的每一阶段,转换器都有一个全局的接受域。
[0010]进一步改进在于,所述步骤三估计深度估计网络用于从单幅图像中预测场景中物体之间的相对深度信息,位姿估计网络用于预测两个视图或视频两帧之间的物体相对运动关系。
[0011]进一步改进在于,所述深度估计网络和位姿估计网络为自监督单目深度估计的网络架构,自监督单目深度估计训练过程如下:给定目标图像和源图像,联合训练系统预测目标图像的密集深度图和目标到原图像的相对相机姿态,然后构造光度重投影损失函数如下: ,其中表示光度重建误差,是L1和结构相似度(SSIM)损失的加权组合,定义为:
其中是根据目标图像的深度扭曲到目标坐标系的源图像,取;SSIM定量比较两张图片的相似性:,是转换函数,将目标图像的像素映射到源图像上, ,而是局部亚可微的双线性采样算子;K为相机内参,假设它固定不变;边缘平滑损失函数为:,其中是平均归一化深度。
[0012]进一步改进在于,为进一步保证深度预测的一致性,在基础自监督损失函数的基础上引入了尺度一致损失:,其中表示将源图像深度图根据相机姿态向目标深度图扭曲投影后,再将像素网格对齐至的深度图;总损失函数L的计算公式如下 ,的作用是充当掩模,来判断重投影的光度误差是否小于原光度误差;若小于,则为1;反之为0;而参数为0.001。
[0013]本专利技术的有益效果:本专利技术在编码器处通过引入Vision Transformers,ViT主干网络代替卷积网络作为密集预测的主干架构,以恒定的和相对较高的分辨率处理表示,并在每个阶段都有一个全局的接受域,以减少卷积网络中下采样过程中的信息丢失,从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”,这些“跳跃”可以很好地在高频分量中捕获,从而达到强化深度信息图边缘的效果。而且高频分量是稀疏的,因此计算只需集中在某些边缘区域,从而节省网络的运算量。总之,通过对ViT和小波变换的引入,能够在不使得网络计算更复杂的前提下,又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取,提高单目深度估计的精度。
[0014]本专利技术通过提升网络模型对全局特征和局部边缘特征的提取,提高现有自监督单目深度估计方法的精度。
[0015]本专利技术用ViT主干网络代替传本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向三维场景重建的高精度单目深度估计系统,包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络,其特征在于,所述视觉转换器网络为ViT主干网络,将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取,并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络;所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络,深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息,位姿估计网络负责计算出前后帧之间的物体运动轨迹;所述小波逆变换解码器网络,将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样,最终输出深度信息图。2.一种基于权利要求1所述的面向三维场景重建的高精度单目深度估计方法,其特征在于,包括有以下步骤:步骤一, 输入图像,ViT主干网络通过将输入的图像分割成所有大小为像素的不重叠的正方形补丁,从图像中提取一个补丁嵌入,这些补丁被展成向量,并使用线性投影单独嵌入;将单独嵌入到特征空间的图像补丁,或者从图像中提取的深度特征,称之为标记;转化器使用串联的多头自注意转换标记集合,标记彼此关联以转换表示;步骤二,标记通过多个转换器传递,将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示;步骤三,然后基于深度估计网络和位姿估计网络,通过预测ViT架构的瓶颈尺度上的粗略估计,重建一个深度估计信息图;步骤四,最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图,得到最终的深度信息图。3.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法,其特征在于...

【专利技术属性】
技术研发人员:程德强王伟臣寇旗旗吕晨王晓艺徐飞翔韩成功张皓翔
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1