一种面向三维场景重建的高精度单目深度估计系统及方法技术方案

技术编号：35421378 阅读：40 留言：0更新日期：2022-11-03 11:22

本发明专利技术公开一种面向三维场景重建的高精度单目深度估计系统及方法，属于图像处理技术领域，在编码器处通过引入Vision Transformers主干网络，ViT主干网络代替卷积网络作为密集预测的主干架构，以恒定的和相对较高的分辨率处理表示，并在每个阶段都有一个全局的接受域，以减少卷积网络中下采样过程中的信息丢失，从而获取图像更多的细节特征和感受野。在解码器处通过利用小波变换来捕获深度图中深度不同的平坦区域之间的深度“跳跃”，这些“跳跃”可以很好地在高频分量中捕获，从而达到强化深度信息图边缘的效果。通过对ViT和小波变换的引入，能够在不使得网络计算更复杂的前提下，又兼顾单目深度估计网络模型对全局特征和局部边缘特征的提取，提高单目深度估计的精度。精度。精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向三维场景重建的高精度单目深度估计系统及方法

[0001]本专利技术涉及图像处理
，尤其涉及一种面向三维场景重建的高精度单目深度估计系统及方法。

技术介绍

[0002]在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视图的信息不完全,因此三维重建需要利用经验知识。而多视图的三维重建相对比较容易，其方法是先对摄像机进行标定，即计算出摄像机的图象坐标系与世界坐标系的关系。然后利用多个二维图像中的信息重建出三维信息，在这个过程中，如何准确获得深度信息是能否从二维图像重建出三维信息的关键。然而大多数应用场景中，机器往往只有一个摄像机对三维场景图像进行采集。因此，单目深度估计技术在三维场景重建中显得至关重要。
[0003]单目深度估计技术在许多实时三维场景重建中有着广泛的应用，比如自动驾驶、虚拟现实、增强现实等，因此深度估计的精度与效率都很重要。目前大部分深度估计都是基于二维RGB图像到RGB
‑
D图像的转化估计，虽然有很多设备可以直接获取像素级的地面真值深度，但是这些深度感知设备往往造价昂贵。早期的深度估计算法大多数有监督的，但训练这些算法需要获取成本很高的地面真值。随着计算机算力和深度学习算法挖掘信息能力的增强，单目深度估计的自监督算法在实现上具有了可能性。相比有监督算法，自监督算法不需要地面真值，只需部署普通的单目摄像头即可实现深度估计。需要注意的是，自监督算法虽然不像深度感知设备那样可以获得绝对深度信息，相对的深度信息已经足够感知周围事物的相对位置关...

【技术保护点】

【技术特征摘要】
1.一种面向三维场景重建的高精度单目深度估计系统，包括视觉转换器网络、自监督单目深度估计网络架构、小波逆变换解码器网络，其特征在于，所述视觉转换器网络为ViT主干网络，将输入的单幅图片经过ViT主干网络的transformer转换器和reassemble重组模块进行特征提取，并将瓶颈尺度的特征图片送入到深度估计网络和位姿估计网络；所述自监督单目深度估计网络架构包括有深度估计网络和位姿估计网络，深度估计网络将接收到的瓶颈尺度的特征图片预测出其的深度信息，位姿估计网络负责计算出前后帧之间的物体运动轨迹；所述小波逆变换解码器网络，将预测出的瓶颈尺度的深度信息图进行小波逆变换不断迭代上采样，最终输出深度信息图。2.一种基于权利要求1所述的面向三维场景重建的高精度单目深度估计方法，其特征在于，包括有以下步骤：步骤一，输入图像，ViT主干网络通过将输入的图像分割成所有大小为像素的不重叠的正方形补丁，从图像中提取一个补丁嵌入，这些补丁被展成向量，并使用线性投影单独嵌入；将单独嵌入到特征空间的图像补丁，或者从图像中提取的深度特征，称之为标记；转化器使用串联的多头自注意转换标记集合，标记彼此关联以转换表示；步骤二，标记通过多个转换器传递，将经过转换器的每组标记重新组合成各种分辨率下的类似图像的特征表示；步骤三，然后基于深度估计网络和位姿估计网络，通过预测ViT架构的瓶颈尺度上的粗略估计，重建一个深度估计信息图；步骤四，最后通过小波逆变换解码器网络利用预测其小波高频系数图进行小波逆变换迭代上采样并完善这个深度估计信息图，得到最终的深度信息图。3.如权利要求2所述的面向三维场景重建的高精度单目深度估计方法，其特征在于...

【专利技术属性】
技术研发人员：程德强，王伟臣，寇旗旗，吕晨，王晓艺，徐飞翔，韩成功，张皓翔，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人