跨相机单目图片度量深度估计方法、装置、设备及介质制造方法及图纸

技术编号：40701551 阅读：4 留言：0更新日期：2024-03-22 10:59

本申请提供跨相机单目图片度量深度估计方法、装置、设备及介质，属于计算机视觉技术领域。方法包括：将单目图片输入视场角对齐模块，得到待输入图片，将待输入图片输入神经网络编码器，得到第一特征图和特征信息；将第一特征图和多个预存嵌入特征向量输入多尺度场景信息提取器；将特征信息和第二特征图输入神经网络解码器；将多个特征向量中的一个特征向量输入场景分类器，其它特征向量输入域感知尺度估计器；根据多个中间度量尺度和分类概率，将每个待细化深度图和目标度量尺度输入深度细化模块，将预测深度图进行放大处理，得到目标深度图。本申请能在不同单目图片拍摄设备的配置和不同场景下，得到更精准的度量深度估计结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉，尤其涉及跨相机单目图片度量深度估计方法、装置、设备及介质。

技术介绍

1、深度估计指的是获取图片中的场景里的每个点到拍摄该图片的相机的距离，这种距离信息组成的图称为深度图。随着人工智能技术的发展，深度信息成为了多项计算机视觉技术重要的组成部分。因此跨相机单目图片度量深度估计已逐渐成为计算机视觉领域中一个重要的研究任务。

2、目前，现有技术中，常见的跨相机单目图片度量深度估计通过利用多样化的场景信息和三维的空间规则，如图片本身的特征和深度线索计算图像的深度值，这些深度线索包括线性透视、聚焦、相对高度和图片中的参照物等，得到深度图。

3、然而，专利技术人发现，现有技术至少存在以下技术问题：使用现有技术中的跨相机单目图片度量深度估计方法在进行新的相机类型拍摄的跨相机单目图片度量深度估计时，得到的结果仍存在较大误差，并且将训练好的算法应用不同场景时，深度估计结果存在较大整体范围误差的问题。

技术实现思路

1、本申请提供跨相机单目图片度量深度估计方法、装置、设备及介质，用于解决使用现有技术中的跨相机单目图片度量深度估计方法在进行新的相机类型拍摄的跨相机单目图片度量深度估计时，得到的结果仍存在较大误差，以及将训练好的算法应用不同场景时，深度估计结果存在较大整体范围误差的问题。

2、第一方面，本申请提供一种跨相机单目图片度量深度估计方法，包括：

3、获取单目图片和预训练度量深度估计模型，其中所述预训练度量深度估计模型包括视场角

4、将所述单目图片输入所述视场角对齐模块，得到统一视场角且统一大小的待输入图片，并将所述待输入图片输入所述神经网络编码器，得到第一特征图和所述神经网络编码器每个阶层输出的特征信息；

5、将所述第一特征图和多个预存嵌入特征向量输入所述多尺度场景信息提取器，得到学习过多尺度信息的第二特征图和多个特征向量；

6、将所述特征信息和所述第二特征图输入所述神经网络解码器，得到一个待细化深度图，其中所述待细化深度图对应所述神经网络解码器中的一个阶层的输出尺度；

7、将所述多个特征向量中的一个特征向量输入所述场景分类器，得到分类概率，并将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度；

8、根据所述多个中间度量尺度和所述分类概率，确定一个目标度量尺度；

9、依次将每个待细化深度图和所述目标度量尺度输入所述深度细化模块，直至得到所述神经网络解码器的最后一个阶层输出的预测深度图，并将预测深度图进行放大处理，得到目标深度图。

10、在一种可能的实现方式中，所述将所述单目图片输入所述视场角对齐模块，得到统一视场角且统一大小的待输入图片，包括：根据所述单目图片，确定所述单目图片的内参、第一宽度和第一高度；根据所述单目图片的内参、第一宽度、第一高度、预设水平视场角、预设垂直视场角、预设神经网络输入图片宽度和预设神经网络输入图片高度，确定统一视场角下的第二宽度和第二高度；根据所述第二宽度和第二高度对所述单目图片进行裁剪和拼接处理，得到统一视场角图片；将所述统一视场角图片进行缩放处理，得到统一视场角且统一大小的待输入图片。

11、在一种可能的实现方式中，所述根据所述单目图片的内参、第一宽度、第一高度、预设水平视场角、预设垂直视场角、预设神经网络输入图片宽度和预设神经网络输入图片高度，确定统一视场角下的第二宽度和第二高度，的计算公式为：

12、

13、式中，为统一视场角下的第二宽度，为统一视场角下的第二高度，，均为图片的内参，其中为所述单目图片的图片坐标系上的x方向上的焦距，为所述单目图片的图片坐标系上y方向上的焦距，为预设水平视场角，为预设垂直视场角。

14、在一种可能的实现方式中，所述获取预训练度量深度估计模型，包括：将预设深度范围划分为多个深度范围域，其中每个深度范围域对应一个场景类别；根据所述场景类别获取训练集，其中所述训练集包括多个样本单目图像、每个样本图片的样本内参和每个样本图片的度量深度图真值，并根据每个预设场景中的最小场景深度值和最大场景深度值，确定每个样本图片所属的深度范围域；将所述每个样本图片的样本内参和预设参数对所述样本图片进行初步处理，得到一个统一视场角且统一大小的待输入样本图片，并将所述待输入样本图片输入所述神经网络编码器，得到第一样本特征图和所述神经网络编码器每个阶层输出的样本特征信息；将所述第一样本特征图和多个预存嵌入特征向量输入所述多尺度场景信息提取器，得到学习过多尺度信息的第二样本特征图和多个样本特征向量；将所述样本特征信息和所述第二样本特征图输入所述神经网络解码器，得到一个待细化样本深度图，其中所述待细化样本深度图对应所述神经网络解码器中的一个阶层的输出尺度；根据所述多个样本特征向量中的一个特征向量、所述度量深度图真值、每个样本图片所述的深度范围域和预设第一损失方式对所述场景分类器进行训练，得到样本分类概率，并将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度；根据所述多个中间度量尺度、所述样本分类概率、所述度量深度图真值和预设第二损失方式，确定一个目标样本度量尺度；依次根据每个待细化深度图、所述目标样本度量尺度、所述度量深度图真值、预设第三损失方式和预设第四损失方式对所述深度细化模块进行训练，直至得到所述神经网络解码器的最后一个阶层输出的预测深度图；根据所述度量深度图真值和预设第五损失方式对所述神经网络解码器的最后一个阶层输出的预测深度图进行训练，得到目标样本深度图；当检测到所述目标样本深度图与所述度量深度图真值之间的差值小于预设阈值，则最后一次训练后的视场角对齐模块、神经网络编码器、多尺度场景信息提取器、域感知尺度估计器、场景分类器、神经网络解码器和深度细化模块确定为预训练度量深度估计模型。

15、在一种可能的实现方式中，所述将预设深度范围划分为多个深度范围域，包括：根据预设深度范围，确定所述预设深度范围的最小深度值和最大深度值之间的多个深度范围域。

16、在一种可能的实现方式中，所述根据预设深度范围，确定所述预设深度范围的最小深度值和最大深度值之间的多个深度范围域，的计算公式为：

17、

18、式中，为第i个深度范围域，其中i为大于0的自然数，为预设深度范围中的最小深度值，为预设深度范围中的最大深度值，k为深度范围域的数量，即k个深度范围域。

19、在一种可能的实现方式中，所述将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度，的计算公式为：

20、

21、式中，为每个特征向量输入所述域感知尺度估计器后得到的一个深度分箱中第n维的数值，其中所述特征向量的长度为1*n，每一维上都有一个对应的数值，为一个度量尺度第n维的数本文档来自技高网...

【技术保护点】

1.一种跨相机单目图片度量深度估计方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述单目图片输入所述视场角对齐模块，得到统一视场角且统一大小的待输入图片，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述单目图片的内参、第一宽度、第一高度、预设水平视场角、预设垂直视场角、预设神经网络输入图片宽度和预设神经网络输入图片高度，确定统一视场角下的第二宽度和第二高度，的计算公式为：

4.根据权利要求1所述的方法，其特征在于，所述获取预训练度量深度估计模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述将预设深度范围划分为多个深度范围域，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据预设深度范围，确定所述预设深度范围的最小深度值和最大深度值之间的多个深度范围域，的计算公式为：

7.根据权利要求4所述的方法，其特征在于，所述将所述多个特征向量中的其它特征向量输入所述域感知尺度估计器，得到多个中间度量尺度，的计算公式为：

8.根据权利要求7所述的方法，

9.根据权利要求8所述的方法，其特征在于，所述将所述样本特征信息和所述第二样本特征图输入所述神经网络解码器，得到一个待细化样本深度图，的计算公式为：

10.根据权利要求9所述的方法，其特征在于，所述预设第三损失方式，的损失函数为：

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述将预测深度图进行放大处理，得到目标深度图之后，还包括：

12.一种跨相机单目图片度量深度估计装置，其特征在于，包括：

13.一种跨相机单目图片度量深度估计设备，其特征在于，包括：至少一个处理器和存储器；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至11任一项所述的跨相机单目图片度量深度估计方法。

...

【技术特征摘要】

1.一种跨相机单目图片度量深度估计方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述单目图片输入所述视场角对齐模块，得到统一视场角且统一大小的待输入图片，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取预训练度量深度估计模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述将预设深度范围划分为多个深度范围域，包括：

7.根据权利要求4所述的方法，其特征在于，所述将所述多个特征向量中的其它特征向量输入所述域感知...

【专利技术属性】
技术研发人员：明安龙，刘一好，薛峰，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人