一种基于自适应令牌聚合的单目深度估计方法及系统技术方案

技术编号：40197412 阅读：7 留言：0更新日期：2024-01-27 00:01

本发明专利技术属于图像处理技术领域，为了解决现有方法无法准确提取丰富的全局信息，以及无法准确估计局部特征，从而导致无法实现准确估计的问题，提出一种基于自适应令牌聚合的单目深度估计方法及系统，将卷积网络与Transformer各自的优点融合应用于深度估计任务中，其中Transformer用于提取全局上下文信息，卷积网络用于保留局部上下文信息，从而使算法具备了提取场景中完整信息的能力，并将Transformer特征和卷积网络特征的信息进行交互并增强对应关系，增强特征的表征能力，从而提高估计的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像处理，尤其涉及一种基于自适应令牌聚合的单目深度估计方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、深度估计是计算机视觉中的一个基本问题。它包括预测在每个像素处描绘的3d点的垂直坐标。对于3d重建、自动驾驶和机器人等众多应用至关重要。

3、目前，有很多设备能够直接获取场景深度，但是设备造价昂贵；而传统深度估计方法主要依赖于双目或多目摄像机系统，这些方法通常受到硬件要求和相机配置的限制。随着深度学习技术的兴起，基于卷积神经网络cnn即convolutional neural network的深度估计方法取得了重大突破。这些方法使用卷积神经网络，通过学习大量带有深度标签的图像数据，能够从单一视图中推断出像素级的深度信息。

4、受自然语言处理中变形器成功的启发，视觉transformer 模型最近被开发出来，并在计算机视觉领域的取得广泛关注。对比传统深度估计方法使用的卷积神经网络，在处理空间信息时受到卷积核大小和池化层的限制，transformer 模型可以处理不同尺度的空间依赖关系，这在深度估计中具有巨大潜力。

5、但是，传统transformer 模型对于深度估计来说是次优的，统一视觉令牌分配不能将更多的令牌分配到重要的区域。而且，transformer 模型无法准确估计局部特征。然而，cnn 在捕获局部特征和纹理方面表现出色，这对于许多计算机视觉任务至关重要。利用cnn框架和利用transformer框架

6、（1）基于cnn的方法能够准确捕获局部特征和纹理，但在处理空间信息时受到卷积核大小和池化层的限制，无法准确提取丰富的全局信息；

7、基于transformer的方法能够处理不同位置的特征之间的长距离依赖关系，可以捕获全局上下文信息，有助于处理涉及整个图像的任务，但是，传统transformer模型的统一视觉令牌分配方式不能将更多的令牌分配到重要的区域，而且无法准确估计局部特征，导致对于图形中的主要物体，特别是场景中的人体、电线杆等，无法实现准确估计。

技术实现思路

1、为了解决上述问题，本专利技术提供了一种基于自适应令牌聚合的单目深度估计方法及系统，将卷积网络与transformer各自的优点融合应用于深度估计任务中，其中，transformer用于提取全局上下文信息，卷积网络用于保留局部上下文信息，从而使算法具备了提取场景中完整信息的能力，并将transformer特征和卷积网络特征的信息进行交互并增强对应关系，增强特征的表征能力，从而提高估计的准确性。

2、为了实现上述目的，本专利技术的第一个方面提供一种基于自适应令牌聚合的单目深度估计方法，采用如下技术方案：

3、获取待估计图像；

4、将获取的待估计图像进行图像分割，得到多个大小一致的图像块；

5、将所得到的图像块利用深度估计网络进行估计，得到估计结果；

6、其中，所述深度估计网络为跳跃连接的编码器-解码器结构，在编码器中，通过矩形卷积引导大小一致的图像块聚焦于场景中的物体，所述编码器包括transformer分支和卷积分支，所述transformer分支用于对预处理后的待估计图像提取全局上下文信息，得到全局特征；所述卷积分支用于对预处理后的待估计图像提取局部上下信息，得到局部特征；所述transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强，得到增强的全局特征和增强的局部特征；利用所述解码器对增强的全局特征和增强的局部特征解码估计，得到估计结果。

7、本专利技术的第二个方面提供一种基于自适应令牌聚合的单目深度估计系统，包括：

8、获取模块：获取待估计图像；

9、预处理模块：将获取的待估计图像进行图像分割，得到多个大小一致的图像块；

10、估计模块：将所得到的图像块利用深度估计网络进行估计，得到估计结果；

11、其中，所述深度估计网络为跳跃连接的编码器-解码器结构，在编码器中，通过矩形卷积引导大小一致的图像块聚焦于场景中的物体，所述编码器包括transformer分支和卷积分支，所述transformer分支用于对预处理后的待估计图像提取全局上下文信息，得到全局特征；所述卷积分支用于对预处理后的待估计图像提取局部上下信息，得到局部特征；所述transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强，得到增强的全局特征和增强的局部特征；利用所述解码器对增强的全局特征和增强的局部特征解码估计，得到估计结果。

12、本专利技术的有益效果是：

13、在本专利技术中，通过矩形卷积引导一致的图像块聚焦于场景中的重要物体，实现对重要物体的额外关注，将卷积网络与transformer各自的优点融合应用于深度估计任务中，其中transformer用于提取全局上下文信息，卷积网络用于保留局部上下文信息，从而使算法具备了提取场景中完整信息的能力，并将transformer特征和卷积网络特征的信息进行交互并增强对应关系，增强特征的表征能力，从而提高估计的准确性。

14、在本专利技术中，考虑到卷积网络无法构建空间和通道间依赖关系，通过设置卷积特征增强模块在提取局部信息时产生全局的感受野，以此增强特征的表征能力。

本文档来自技高网...

【技术保护点】

1.一种基于自适应令牌聚合的单目深度估计方法，其特征在于，包括：

2.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，对获取待估计图像进行分割，具体包括：通过分区算子对待估计图像进行分割，分割得到多个大小一致的图像块。

3.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述Transformer分支包括多个依次连接的下采样层，每个下采样层包括依次包括补丁合并层和多个Transformer块，每个Transformer块包括依次连接的第一归一化层、多头自主意模块、第二归一化层和多层感知器模块。

4.如权利要求3所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述卷积分支包括卷积编码器和卷积特征增强模块，将卷积分支的卷积编码层的输出特征利用矩形卷积模块进行特征提取，得到矩形卷积聚类特征，将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中，引导令牌的聚类和合并。

5.如权利要求4所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，将所得到的矩形卷积聚类特征作为先验

6.如权利要求4所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述卷积特征增强模块包括并列的第一卷积层和第二卷积层，所述第一卷积层的输出特征分别经过第三卷积层和第四卷积层后进行特征相乘操作，将相乘后的结果再经过第五卷积层进行特征提取，所述第五卷积层的输出结果与所述第二卷积层的输出经过第六卷积层后的输出结果进行特征融合，将融合后的结果与所述卷积特征增强模块的输入再次特征融合，得到所述卷积分支的输出结果。

7.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强，得到增强的全局特征和增强的局部特征，具体操作为：

8.如权利要求7所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，将所述第一全局特征和所述第一局部特征经过通道注意和跨图形信息交互得到增强的全局特征和增强的局部特征，具体为：

9.如权利要求8所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，将所得到的特征交互后的全局特征和特征交互后的局部特征，分别与经过通道注意的所述全局特征和所述局部特征进行矩阵乘法，得到增强的全局特征和增强的局部特征，具体为：

10.一种基于自适应令牌聚合的单目深度估计系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于自适应令牌聚合的单目深度估计方法，其特征在于，包括：

3.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，所述transformer分支包括多个依次连接的下采样层，每个下采样层包括依次包括补丁合并层和多个transformer块，每个transformer块包括依次连接的第一归一化层、多头自主意模块、第二归一化层和多层感知器模块。

5.如权利要求4所述的一种基于自适应令牌聚合的单目深度估计方法，其特征在于，将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中，引导令牌的聚类和合并，具体为：

6.如权利要求4所述的一种基于自适应令牌聚合的单目深度...

【专利技术属性】
技术研发人员：张明亮，周大正，李彬，杨姝慧，智昱旻，徐一明，刘丽霞，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人