一种融合CNN与Transformer改进的轻量化单目深度估计方法技术

技术编号：40675705 阅读：5 留言：0更新日期：2024-03-18 19:13

本发明专利技术提供一种融合CNN与Transformer改进的轻量化单目深度估计方法，所述方法包括以下步骤：第一步，采集连续帧单目相机数据作为网络的输入，进行图像卷积下采样及池化模块预处理；第二步，通过空洞卷积残差模块实现多尺度局部特征提取；第三步，结合改进的Transformer模块实现局部‑全局上下文信息交互；第四步，通过跳跃链接将编码器与解码器相连，并在解码器部分利用单层卷积融合特征；第五步，通过预测头输出不同分辨率的深度图像。本发明专利技术实现了一种轻量化实时的单目深度估计方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度估计领域，具体是一种基于卷积神经网络(convolutionalneural network，cnn)融合transformer的轻量化单目深估计方法。

技术介绍

1、随着人工智能技术快速发展，诸如机器人、无人机以及无人驾驶汽车等这类产品已经广泛应用到人类生活中。这些应用需要利用场景深度信息为基础对场景进行感知，因此精确的深度预测至关重要。深度估计作为自主系统感知环境和估计其自身状态的核心技术，为视觉里程计、自动驾驶、机器人定位和视觉感知等研究提供最基本的深度信息，在各种机器人系统和应用中起到了关键作用。现有的深度传感器如rgb-d相机、激光雷达和结构光传感器等可以提供准确的深度信息，但这些传感器硬件成本较高，体积较大且具有高功耗。相比之下，使用单个rgb图像估计深度图的单目深度估计是一种廉价且易于部署的方法，没有过高的硬件要求，仅通过图像就能够获取深度信息，因此基于单张图像恢复深度的方法得到了广泛的研究。

2、早期研究人员使用诸如图像消隐点、对焦与离焦、阴影等深度线索从单目图像中获取深度信息，但这类方法通常对图像有特殊要求并不能适用于所有场景。随着机器学习的发展，saxena等人利用特征构建条件随机场、马尔可夫随机场对深度信息进行建模，并考虑全局信息和长距离信息，将问题转化为一个随机场下的学习问题。但是传统机器学习通常需要手工设计和选择特征，且对于复杂环境难以捕捉到数据中复杂的非线性关系，很难实现较好的泛化能力。近年来伴随着深度学习的发展，基于深度学习的方法已经得到较好的发展。

3、在

4、本专利技术针对现有自监督单目深度估计网络参数量庞大，资源消耗较大等问题，提出了一种结合cnn与transformer的轻量化实时自监督单目深度估计网络，解决了单目深度估计网络不能部署在边缘设备的问题。

技术实现思路

1、因此，为了在提高推理速度的同时保证精度，本文基于cnn-transformer混合架构分别对cnn与transformer进行改进，利用改进复杂度较小的transformer增强cnn网络的表达能力。本文采用浅层cnn网络，使用深度可分离卷积增大浅层网络的感受野，通过堆叠空洞卷积残差(atrous convolution residual，acr)模块实现一个感受野较大的浅层cnn网络，并结合改进自注意机制以及前馈网络的transformer实现全局上下文交互。在transformer的注意力机制部分，通过一个多深度可分离卷积头转置注意力(multi-dwconvhead transposed attention，mdta)模块，在跨特征维度上应用自注意力机制，计算跨特征通道的互协方差，可以减少计算复杂度。mdta模块强调了空间局部上下文，并引入了卷积运算的互补优势。同时确保了像素之间的上下文全局关系建模，计算基于协方差的注意力图。在transformer的前馈网络部分，受zamir等人的启发，提出一个两步门控前馈网络(two-step gated feedforward network，tsgfn)机制，分两步控制互补特征的流动，抑制信息较少的特征，关注于更精细的图像特征，从而输出高质量的特征图。

2、一种基于cnn-transformer混合架构的轻量化自监督单目深度估计方法包括以下步骤：

3、步骤1、采集单目相机连续帧传感器数据；

4、步骤2、构建单目深度估计网络编码层cnn部分，利用深度可分离卷积实现空洞卷积残差模块提取图像多尺度局部信息；

5、步骤3、基于步骤2得到的cnn网络，结合transformer实现全局-局部上下文交互，利用多深度可分离卷积头转置注意力模块降低transformer计算负担，在前馈网络部分利用门控机制提高前馈网络的非线性表征能力；

6、步骤4、基于步骤3得到的网络，利用源图像与预测图像之间的差异作为监督模型训练的信号，根据两者差异设计损失函数。

7、步骤5、基于步骤4构建的网络在kitti数据集上进行训练得到权重模型，并对模型精度进行评估。同时在make3d数据集上进行泛化实验，以评估模型在不同现实世界场景中的泛化能力，并将步骤1中采集的数据集输入到网络中进行深度预测得到连续的深度图。

8、步骤2所述的构建单目深度估计网络编码层cnn部分；

9、具体步骤如下：

10、步骤2-1、本专利技术提出空洞卷积残差模块用于增强局部特征的提取，该模块利用深度可分离卷积代替传统卷积提取图像特征。深度可分离卷积由逐通道卷积和逐点卷积两部分组成，其中逐通道卷积用于在通道维度上进行特征提取，逐点卷积用于在空间维度上进行特征组合。

11、深度可分离卷积表示为

12、

13、通过线性模块增加特征通道，提高模型的特征提取能力、引入非线性变换、减少计算成本，并更好地捕获图像信息，从而充分发挥深度可分离卷积的优势。将维度为h×w×c的特征x作为输入，空洞卷积残差模块的输出如下：

14、

15、其中，linear为线性变换，扩展特征通道；dwconv为3×3深度可分离卷积，膨本文档来自技高网...

【技术保护点】

1.一种融合CNN与Transformer改进的轻量化单目深度估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合CNN与Transformer改进的轻量化单目深度估计方法，其特征在于，步骤2所述的构建单目深度估计网络编码层CNN部分，利用深度可分离卷积实现空洞卷积残差模块提取图像多尺度局部信息；

3.根据权利要求1所述的一种融合CNN与Transformer改进的轻量化单目深度估计方法，其特征在于，步骤3所述的基于步骤2得到的CNN网络，结合Transformer实现全局-局部上下文交互，利用多深度可分离卷积头转置注意力模块降低Transformer计算负担，在前馈网络部分利用门控机制提高前馈网络的非线性表征能力；

4.根据权利要求1所述的一种融合CNN与Transformer改进的轻量化单目深度估计方法，其特征在于，步骤4所述基于步骤3得到的网络，利用源图像与预测图像之间的差异作为监督模型训练的信号，根据两者差异设计损失函数；

【技术特征摘要】

1.一种融合cnn与transformer改进的轻量化单目深度估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合cnn与transformer改进的轻量化单目深度估计方法，其特征在于，步骤2所述的构建单目深度估计网络编码层cnn部分，利用深度可分离卷积实现空洞卷积残差模块提取图像多尺度局部信息；

3.根据权利要求1所述的一种融合cnn与transformer改进的轻量化单目深度估计方法，其特征在于，步...

【专利技术属性】
技术研发人员：隋心，张聪，王长强，史政旭，郭哲，邹鑫慈，白建洲，
申请(专利权)人：辽宁工程技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人