一种基于扩散模型的单目深度估计与视觉里程计方法技术

技术编号：41058358 阅读：4 留言：0更新日期：2024-04-24 11:09

本发明专利技术涉及一种基于扩散模型的单目深度估计与视觉里程计方法，包括：接收目标图像和源图像；将目标图像和源图像输入至预测模型中，得到目标图像的深度图以及目标图像和源图像之间的相对位姿；其中，预测模型中的基于扩散模型的深度预测网络包括：特征提取部分，用于对目标图像进行特征提取，得到多尺度特征信息；扩散模型去噪部分，用于在多尺度特征信息的引导下进行去噪，生成图像的深度特征；深度解码器部分，用于对图像的深度特征进行处理，得到目标图像的深度图；位姿预测网络将合并后的目标图像和源图像作为输入，输出目标图像和源图像之间的相对位姿。本发明专利技术能够充分利用图像的特征信息，提高鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，特别是涉及一种基于扩散模型的单目深度估计与视觉里程计方法。

技术介绍

1、视觉里程计是实时定位与建图(slam)中的一个基本问题，其目的是根据拍摄的图像估计相机的运动，在自动驾驶、虚拟现实(vr)和增强现实(ar)等工作中有着广泛的应用。传统的方法通过特征点匹配以及对极几何的方法求解相邻两张图片之间的相对位姿。相比于传统方法中人工设计的低维特征，深度学习方法可以从大量数据中学习得到高维高表征的特征，目前被广泛关注。

2、最早被提出的无监督视觉里程计基本框架是sfmlearner，该框架基于判别式模型，包含一个深度估计子网络和位姿估计子网络。其中深度估计子网络用于估计单张图片的深度图，位姿估计子网络用于估计连续两张图像之间的相对位姿。一般情况将t时刻图像称为目标图像，t+1时刻图像称为源图像。根据得到的深度和位姿信息进行重投影，即将源图像重投影至目标图像得到重建目标图像。通过优化重建目标图像与目标图像之间的光度损失进行训练。在此基础上，为优化环境光照变化导致光度损失误差较大的情况，有方法使用结构一致性函数构建了新的重投影损失函数。针对不满足光度一致性假设的情况，monodepth2引入了自动掩码和最小重投影损失来解决移动对象和遮挡问题。

3、由于单目视觉不具备绝对尺度信息，sc-sfmlearner和sc-depth提出了几何一致性损失以确保视频序列下的尺度一致性，该损失通过约束重投影得到的源图像深度和网络估计的源图像深度ds。但由于模型在训练起始阶段得到的估计位姿精度较低，重投影

4、上述提到的方法是基于判别式模型的。相比于判别式模型，生成式模型可以学习数据的内在结构，其数据生成过程可以看成是将一个先验分布变换成数据分布的过程，在面对复杂场景时具有更好的鲁棒性。生成对抗网络(gan)是典型的生成式模型之一，通过生成器和判别器的对抗博弈进行训练。随着其在图像生成方面取得了巨大的成功，gan-vo将其集成在无监督视觉里程计框架中，提出了第一个基于生成式模型的视觉里程计框架。在此基础上，masked gan-vo应用掩码消除遮挡和视野变化对重建损失和对抗损失的影响。但由于生成对抗网络采用对抗博弈的训练策略，在训练中极易发生不收敛的情况，同时在判别器训练的太好时生成器可能会发生梯度消失的问题。

技术实现思路

1、本专利技术所要解决的技术问题是提供一种基于扩散模型的单目深度估计与视觉里程计方法，能够充分利用图像的特征信息，提高鲁棒性。

2、本专利技术解决其技术问题所采用的技术方案是：提供一种基于扩散模型的单目深度估计与视觉里程计方法，包括以下步骤：

3、接收目标图像和源图像；

4、将所述目标图像和所述源图像输入至预测模型中，得到所述目标图像的深度图以及所述目标图像和所述源图像之间的相对位姿；其中，预测模型包括基于扩散模型的深度预测网络和位姿预测网络；

5、所述基于扩散模型的深度预测网络包括：

6、特征提取部分，用于对所述目标图像进行特征提取，得到多尺度特征信息；

7、扩散模型去噪部分，用于在所述多尺度特征信息的引导下进行去噪，生成图像的深度特征；

8、深度解码器部分，用于对所述图像的深度特征进行处理，得到所述目标图像的深度图；

9、所述位姿预测网络将合并后的所述目标图像和所述源图像作为输入，输出所述目标图像和所述源图像之间的相对位姿。

10、所述扩散模型去噪部分包括：

11、初始化模块，用于初始化一个随机深度特征分布；

12、引导降噪模块，用于在所述多尺度特征信息的引导下对所述随机深度特征进行迭代的降噪，生成图像的深度特征。

13、所述引导降噪模块包括多个级联的引导降噪单元，所述引导降噪单元包括：

14、噪声预测网络，其输入为扩散步数n的深度特征分布，同时将所述多尺度特征信息作为引导信息，预测扩散步数n的深度特征分布相对于扩散步数0分布的噪声；

15、ddim推理单元，其输入为所述噪声预测网络的输出，输出为扩散步数n-1分布的预测。

16、所述将所述多尺度特征信息作为引导信息时，随网络深入在所述噪声预测网络中逐步从浅层空间几何特征过渡到深层高级语义特征。

17、所述引导降噪单元在所述噪声预测网络中加入跳跃连接。

18、所述预测模型还包括：

19、重投影模块，用于根据所述目标图像的深度图以及所述目标图像和所述源图像之间的相对位姿进行重投影操作，得到重建的源图像；

20、源图像深度预测模块，用于采用所述基于扩散模型的深度预测网络对所述重建的源图像进行深度预测，得到重建的源图像的深度图；

21、尺度一致性损失计算模块，用于根据重投影的源图像的深度和所述重建的源图像的深度进行尺度一致性损失计算。

22、所述尺度一致性损失计算模块通过计算尺度一致性损失，其中，lscale为尺度一致性损失，为重投影的源图像的深度，ds′为重建的源图像的深度。

23、本专利技术解决其技术问题所采用的技术方案是：提供一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于扩散模型的单目深度估计与视觉里程计方法的步骤。

24、本专利技术解决其技术问题所采用的技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于扩散模型的单目深度估计与视觉里程计方法的步骤。

25、有益效果

26、由于采用了上述的技术方案，本专利技术与现有技术相比，具有以下的优点和积极效果：本专利技术采用图像的多尺度金字塔特征作为扩散模型中去噪过程的引导信息，更为充分地利用了图像的特征信息，提高在面对复杂场景时的鲁棒性。本专利技术提出了新的尺度一致性损失，将目标图像重投影至源图像得到重建源图像，并约束重投影源图像深度与网络估计的重建源图像深度，两者之间不存在对应点错误的问题，通过约束两者可以更好地保证视频序列的尺度一致性。

本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，所述扩散模型去噪部分包括：

3.根据权利要求2所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，

4.根据权利要求3所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，所述将所述多尺度特征信息作为引导信息时，随网络深入在所述噪声预测网络中逐步从浅层空间几何特征过渡到深层高级语义特征。

5.根据权利要求3所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，所述引导降噪单元在所述噪声预测网络中加入跳跃连接。

6.根据权利要求1所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，所述预测模型还包括：

7.根据权利要求6所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，所述尺度一致性损失计算模块通过计算尺度一致性损失，其中，Lscale为尺度一致性损失，为重投影的源图像的深度，ds′为重建的源图像的深度。</p>

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一所述基于扩散模型的单目深度估计与视觉里程计方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述基于扩散模型的单目深度估计与视觉里程计方法的步骤。

...

【技术特征摘要】

1.一种基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，所述扩散模型去噪部分包括：

3.根据权利要求2所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，

5.根据权利要求3所述的基于扩散模型的单目深度估计与视觉里程计方法，其特征在于，所述引导降噪单元在所述噪声预测网络中加入跳跃连接。

6.根据权利要求1所述的基于扩散模型的单...

【专利技术属性】
技术研发人员：朱冬晨，刘润泽，张广慧，李嘉茂，王磊，
申请(专利权)人：中国科学院上海微系统与信息技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人