基于环视图像的深度信息获取方法、电子设备及存储介质技术

技术编号：41139293 阅读：2 留言：0更新日期：2024-04-30 18:09

本公开提供了基于环视图像的深度信息获取方法、电子设备及存储介质。本公开的基于环视图像的深度信息获取方法，包括：获取环视图像；基于单目深度估计模型对环视图像进行单目深度估计，获取第一深度损失；基于环视深度估计模型对环视图像进行环视深度估计，获取深度一致性损失；根据第一深度损失和深度一致性损失获取总损失；基于总损失对环视深度估计模型进行模型参数调整，获得调整后环视深度估计模型；基于调整后环视深度估计模型获取环视图像的深度信息。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及自动驾驶领域、计算机视觉，本公开尤其涉及一种基于环视图像的深度信息获取方法、装置、电子设备、存储介质及计算机程序产品。

技术介绍

1、深度估计是自动驾驶和机器人系统感知中的一项基本且具有挑战性的任务。由于深度传感器的成本较高，因此出现了使用卷积神经网络(cnn)从图像推断深度图的研究。利用带注释的深度，我们可以训练回归cnn来预测单个图像上每个像素的深度值。

2、然而，由于缺乏用于监督学习的大规模精确密集的真实(ground truth)深度，因此，从立体帧对或单目视频中寻找监督信号的自监督方法开始兴起。这些方法将深度估计任务视为一种新颖的视图合成问题，并最大限度地减少图像重建损失。因为收集立体数据需要复杂的配置和数据处理，大多数方法专注于仅需要单目视频数据的自监督方法的研究。

3、对相关技术方案进行介绍：

4、技术方案1：论文《digging into self-supervised monocular depthestimation》做出了以下改进：1)提出了最小重投影损失，将多个源图像的重投影误差从取平均改为取最小，这种做法有效解决了只出现在部分源图像中的遮挡像素的遮挡问题；2)提出自动掩码固定像素方法，将前后帧中没有发生变化的像素用掩码进行遮挡避免参与损失计算。该掩码可以让网络忽略场景中与自车移动速度相同的物体，以及当自车停止运动时忽略整个帧，避免这些场景污染光度重投影损失。该方法提出的最小重投影损失简单且有效的解决了物体遮挡问题，在之后的各种方法中被广泛引用。但是缺乏对场景

5、技术方案2：论文《self-supervised object motion and depth estimationfrom video》主要对动态物体进行处理，方法步骤如下：1)引入实例分割网络，将2d图像的像素划分为静态背景像素和动态物体像素；2)引入新的物体运动估计网络对每个动态像素实例的运动进行预测；3)合成目标图像时将背景像素视为静态区域，物体像素视为动态区域，分别使用相机位姿和预测位姿进行合成。该方法通过物体位姿估计网络，很好地对场景中刚性物体的运动进行了建模，有效改进了自监督方法对图像动态区域的深度预测。然而该方法基于单目视频序列，难以处理在自车多个摄像头间运动的物体。并且原文中也没有解决运动物体带来的遮挡问题。

6、技术方案3：论文《bevscope:enhancing self-supervised depth estimationleveraging bird's-eye-view in dynamic scenarios》从单目设置扩展到环视设置进行深度估计，并主张利用bev特征所具有的几何结构线索来辅助增强图像的深度估计。核心思想是将环视图像特征与bev特征进行融合，然后通过自注意力操作让图像特征从bev特征中学习场景几何结构线索，最后从图像特征中解码得到预测的深度图。这篇论文首次将bev特征引入到深度估计中，但是论文的实验结果对比之前的方法提升有限，文章所提出的融合方法并不能很好的让图像特征学习到bev场景下几何结构线索。

7、技术方案4：论文《unsupervised learning of depth and ego-motion frommonocular video using 3d geometric constraints》，这篇文章的主要贡献是将3d点云信息纳入到深度估计当中，明确考虑了整个场景的推理的3d几何形状对深度估计的约束。从估计的深度得到3d点云后，通过icp算法对两个3d点云之间进行最佳匹配，然后计算3d点云一致性损失。3d几何结构信息的引入有效的提升了深度估计的准确度，但是点云匹配中使用的icp算法计算量大，难以从单目扩展到环视深度估计中。

8、结合相关技术来看，目前，基于光度重投影损失的自监督深度估计方法仍存在以下不足：

9、(1)对多摄像头信息的交叉利用：大多数方法(技术方案1、2、4)仍停留在单目深度估计上，而最近环视方法多数通过环视特征图之间的注意力交互以获取多视角之间的信息，也有将2d图像特征与bev特征进行注意力交互的方法(技术方案3)，这些方法都利用注意力机制，计算量大。

10、(2)对场景中几何结构信息的利用：技术方案4首次将对3d结构预测的一致性引入到深度估计中，并取得了不错的效果。但是使用的方法计算量大，很难从单目扩展到环视。而技术方案3希望通过自注意力机制让图像特征从bev特征中学习场景几何信息，但是实验效果并不好。

11、(3)对动态物体的处理：单目设置下涌现出了许多对动态物体的处理方法，例如技术方案2通过位姿网络建模动态实例的运动。但是在环视设置下，对动态物体的处理仍是一片空白，如果直接将单目方法扩展到环视多目，会导致高计算量且难以处理在多相机视角间运动的物体。

技术实现思路

1、本公开提供了一种基于环视图像的深度信息获取方法、装置、电子设备、存储介质及计算机程序产品。

2、根据本公开的一个方面，提供了一种基于环视图像的深度信息获取方法，包括：

3、获取环视图像；

4、基于单目深度估计模型对所述环视图像进行单目深度估计，获取第一深度损失；

5、基于环视深度估计模型对所述环视图像进行环视深度估计，获取深度一致性损失；

6、根据所述第一深度损失和所述深度一致性损失获取总损失；

7、基于所述总损失对所述环视深度估计模型进行模型参数调整，获得调整后环视深度估计模型；

8、基于所述调整后环视深度估计模型获取所述环视图像的深度信息。

9、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法，获取环视图像，包括：

10、获取单目图像序列；

11、将各单目图像序列的同一帧时刻的单目图像的集合作为环视图像，获得环视图像序列。

12、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法，基于单目深度估计模型对环视图像进行单目深度估计，获取第一深度损失，包括：

13、基于单目视觉获取环视目标图像中单目目标图像的深度图，获取单目目标图像与单目源图像之间的相对位姿；

14、基于单目目标图像对应的所述深度图和所述相对位姿，从所述单目源图像采样像素重建所述单目目标图像，获取单目合成图像；

15、基于单目目标图像与该单目目标图像对应的单目合成图像之间的误差，获取所述第一深度损失。

16、根据本公开的至少一个实施方式的基于环视图像的深度信息获取方法，基于单目目标图像对应的所述深度图和所述相对位姿，从所述单目源图像采样像素重建所述单目目标图像，获取单目合成图像，包括：

17、获取单目目标图像对应的相机内参矩阵和单目目标图像的像素齐次坐标；

18、根据所述深度图、所述相对位姿、本文档来自技高网...

【技术保护点】

1.一种基于环视图像的深度信息获取方法，其特征在于，包括：

2.根据权利要求1所述的基于环视图像的深度信息获取方法，其特征在于，获取环视图像，包括：

3.根据权利要求1或2所述的基于环视图像的深度信息获取方法，其特征在于，基于单目深度估计模型对环视图像进行单目深度估计，获取第一深度损失，包括：

4.根据权利要求3所述的基于环视图像的深度信息获取方法，其特征在于，基于单目目标图像对应的所述深度图和所述相对位姿，从所述单目源图像采样像素重建所述单目目标图像，获取单目合成图像，包括：

5.根据权利要求3所述的基于环视图像的深度信息获取方法，其特征在于，所述单目目标图像与单目目标图像对应的单目合成图像之间的误差通过光度重投影损失进行衡量。

6.根据权利要求4所述的基于环视图像的深度信息获取方法，其特征在于，基于单目目标图像与该单目目标图像对应的单目合成图像之间的误差，获取所述第一深度损失，包括：

7.根据权利要求1所述的基于环视图像的深度信息获取方法，其特征在于，基于环视深度估计模型对所述环视图像进行环视深度估计，获取深度一致性损失，包括：

8.一种电子设备，其特征在于，包括：

9.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的基于环视图像的深度信息获取方法。

10.一种计算机程序产品，其特征在于，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的基于环视图像的深度信息获取方法。

...

【技术特征摘要】

1.一种基于环视图像的深度信息获取方法，其特征在于，包括：

2.根据权利要求1所述的基于环视图像的深度信息获取方法，其特征在于，获取环视图像，包括：

6.根据权利要...

【专利技术属性】
技术研发人员：安家锐，陈佳，鲁耀杰，
申请(专利权)人：元橡科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人