System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于CNN和Transformer特征融合的单目深度估计方法技术_技高网

一种基于CNN和Transformer特征融合的单目深度估计方法技术

技术编号:41395493 阅读:8 留言:0更新日期:2024-05-20 19:18
本发明专利技术属于计算机视觉领域,公开了一种基于CNN和Transformer特征融合的单目深度估计方法,包括:首先,构建混合深度数据集并对其进行预处理,将预处理后的图片输入网络提取CNN特征图,其次,使用特征转换模块得到类图像特征图并调整类图像特征图的尺度,获得四个Transformer特征图,而后将两个特征图输入引导融合模块,获得四个层级的特征图并将其输入解码融合模块,获得解码后的输出特征图;最后将输出特征图输入深度输出模块生成深度图,将深度图标签和深度图进行损失值计算,得到训练好的模型。本发明专利技术的双分支结构产生了提升了深度图的全局准确性,细化了局部纹理和边缘的表现,提高了模型的泛化能力。

【技术实现步骤摘要】

本专利技术属于计算机视觉领域,具体的说是涉及一种基于cnn和transformer特征融合的单目深度估计方法。


技术介绍

1、单目深度估计是计算机视觉领域的一个关键任务,它旨在从单个图像中推断出场景的三维深度信息。单目深度估计为许多应用提供了基础,例如自动驾驶、三维重建和新视点合成。常规的深度估计方法依赖于多个相机或特殊的传感器来获取深度信息,而单目深度估计则只需要一个普通相机,大大降低了成本和复杂性,且可以应用于现有的大量图像和视频数据,为复杂场景的理解提供更丰富的视觉信息。这种方法的经济效益和灵活性使得其在深度学习技术的推动下,成为计算机视觉研究和应用中备受关注的焦点。

2、卷积神经网络(cnn)擅长捕捉图像的局部特征和纹理信息,但在理解图像的全局上下文方面存在限制,其远距离依赖关系的表征能力不足,导致深度图在全局结构上的不准确,且其物体边缘可能因卷积神经网络处理而变得模糊,导致深度连续性的断裂。

3、transformer在处理全局长距离依赖关系方面表现出色,但可能会忽略一些重要的局部细节,缺少归纳偏置,它们可能不如卷积网络那样对图像中的位置信息敏感,从而影响深度图的空间精确性。

4、除此之外,单一数据集训练的网络通常仅覆盖特定场景或环境,导致模型在其他场景中的性能下降,模型可能无法准确估计未见过的情况,因为它没有接触到足够多的多样性数据。


技术实现思路

1、为了达到上述目的,本专利技术提供了一种基于cnn和transformer特征融合的单目深度估计方法,该单目深度估计方法使用双分支结构将transformer网络与cnn网络的优势结合,充分利用了各自网络的优势,并使用混合数据集训练,产生了更高质量的深度图,不仅提升了深度图的全局准确性,也细化了局部纹理和边缘的表现。

2、为了达到上述目的,本专利技术是通过以下技术方案实现的:

3、本专利技术是一种基于cnn和transformer特征融合的单目深度估计方法,该方法包括如下步骤:

4、步骤1、构建用于训练的混合深度数据集,对混合深度数据集中的rgb图片及其对应的深度图标签进行归一化、数据增强的预处理操作;

5、步骤2、将步骤1预处理的rgb图片输入到网络中,所述网络包括编码部分和解码部分,所述编码部分包括transformer分支、cnn分支和引导融合模块,所述解码部分包括解码融合模块和深度输出模块,所述transformer分支处理rgb图片得到一维transformer特征图;

6、步骤3、所述cnn分支处理步骤1预处理后的rgb图片并提取四个不同分辨率的cnn特征图;

7、步骤4、选取所述transformer分支中的任意四层一维transformer特征图,并使用所述特征转换模块将一维transformer特征图转换为类图像特征图,并用转置卷积调整类图像特征图的尺度,最终获得与步骤3得到的cnn特征图相对应分辨率的四个transformer特征图;

8、步骤5、步骤3得到的cnn特征图和步骤4得到的四个transformer特征图输入所述引导融合模块,获得四个层级的特征图,其分辨率为输入rgb图片的

9、步骤6、将步骤5获得的四个层级的特征图输入所述解码融合模块,所述解码融合模块由残差卷积单元和上采样操作组成,通过跳跃连接自下而上的融合四个层级的特征图,逐步重建图像细节,获得解码后的输出特征图,分辨率为输入rgb图片的1/4;

10、步骤7、将步骤6得到的解码后的输出特征图输入所述深度输出模块,生成与输入图片rgb相同大小、细节丰富、准确性高的深度图;

11、步骤8、将输入rgb图像的深度图标签和所述步骤7预测的深度图进行损失值计算,进行网络超参数迭代优化,得到训练好的模型。

12、本专利技术的进一步改进在于:所述步骤1中的混合深度数据集包括nyu数据集、apolloscape数据集、town05数据集、redweb数据集和hr-wsi数据集组成,每个所述nyu数据集、apolloscape数据集、town05数据集、redweb数据集和hr-wsi数据集均由rgb图片和对应的深度图标签构成,将深度图标签规范到同一个深度空间,并用线性归一化,使深度值范围在[0,1]之间。

13、本专利技术的进一步改进在于:所述步骤5将cnn特征图和四个transformer特征图输入所述引导融合模块,获得四个层级的特征图,具体包括以下步骤:

14、步骤5.1、对于每个所述引导融合模块,处理相同尺度的transformer特征图和cnn特征图,先将transformer特征图和cnn特征图沿着通道维度拼接,然后通过3x3卷积,bn和relu激活函数降低通道维度;

15、步骤5.2、使用shuffle attention机制增强特征表示,使transformer特征图和cnn特征图充分融合;

16、步骤5.3、通过四个引导融合模块获得四个层级的特征图,其中每个层级的特征图兼具transformer的全局信息处理优势和cnn的局部特征提取优势。

17、本专利技术的进一步改进在于:所述步骤6中的残差卷积单元包括relu激活函数,3×3卷积和bn,具体的解码融合过程包括如下步骤:

18、步骤6.1、从步骤5中输出分辨率为输入rgb图片1/32大小的特征图开始,特征图在经过当前解码融合模块的第一个残差卷积单元处理后,与上一个解码融合模块输出的特征图相加;

19、步骤6.2、通过第二个残差卷积单元并上采样其两倍,得到分辨率为输入rgb图片1/16大小的特征图;

20、步骤6.3、连续3个的解码融合模块之后,最后得到输入rgb图片分辨率1/4大小的特征图。

21、本专利技术的进一步改进在于:所述步骤8中损失值计算如下:

22、

23、其中,代表预测的深度图,代表真实的深度图标签,代表预测的深度值,代表真实的深度值,j代表像素的索引值,m代表有效的像素数量,r=0.8m用来去除20%的最大异常值以减小模型对异常数据的过拟合。

24、本专利技术的进一步改进在于:在所述步骤2中,所述transformer分支包括图像嵌入模块、12个连续的transformer层和特征转换模块,rgb图片通过图像嵌入模块输入网络中得到一系列的嵌入向量,将输出的一系列的嵌入向量作为12个transformer层的输入,12个连续的transformer层对嵌入向量进行处理,通过多头自注意力机制捕获12个一维transformer特征图。

25、本专利技术的进一步改进在于:在所述步骤2中,所述cnn分支采用预训练的残差网络resnext101,所述cnn分支由多个cnn残差块堆叠而成,分为四个阶段,在每个阶段分别获得原始输入图像大小的特征图。

26、本专利技术的有益效果是:

27、本专利技术使用双分支结构将t本文档来自技高网...

【技术保护点】

1.一种基于CNN和Transformer特征融合的单目深度估计方法,其特征在于:所述单目深度估计方法具体包括如下步骤:

2.根据权利要求1所述的一种基于CNN和Transformer特征融合的单目深度估计方法,其特征在于:所述步骤1中的混合深度数据集包括NYU数据集、ApolloScape数据集、Town05数据集、RedWeb数据集和HR-WSI数据集组成,每个所述NYU数据集、ApolloScape数据集、Town05数据集、RedWeb数据集和HR-WSI数据集均由RGB图片和对应的深度图标签构成,将深度图标签规范到同一个深度空间,并用线性归一化,使深度值范围在[0,1]之间。

3.根据权利要求1所述的一种基于CNN和Transformer特征融合的单目深度估计方法,其特征在于:所述步骤5将CNN特征图和四个Transformer特征图输入所述引导融合模块,获得四个层级的特征图,具体包括以下步骤:

4.根据权利要求1所述的一种基于CNN和Transformer特征融合的单目深度估计方法,其特征在于:所述步骤6中的残差卷积单元包括RELU激活函数,3×3卷积和BN,具体的解码融合过程包括如下步骤:

5.根据权利要求1所述的一种基于CNN和Transformer特征融合的单目深度估计方法,其特征在于:所述步骤8中损失值计算如下:

6.根据权利要求1-5任一项所述的一种基于CNN和Transformer特征融合的单目深度估计方法,其特征在于:在所述步骤2中,所述Transformer分支包括图像嵌入模块、12个连续的Transformer层和特征转换模块,RGB图片通过图像嵌入模块输入网络中得到一系列的嵌入向量,将输出的一系列的嵌入向量作为12个Transformer层的输入,12个连续的Transformer层对嵌入向量进行处理,通过多头自注意力机制捕获12个一维Transformer特征图。

7.根据权利要求1-5任一项所述的一种基于CNN和Transformer特征融合的单目深度估计方法,其特征在于:在所述步骤2中,所述CNN分支采用预训练的残差网络ResNeXt101,所述CNN分支由多个CNN残差块堆叠而成,分为四个阶段,在每个阶段分别获得原始输入图像大小的特征图。

...

【技术特征摘要】

1.一种基于cnn和transformer特征融合的单目深度估计方法,其特征在于:所述单目深度估计方法具体包括如下步骤:

2.根据权利要求1所述的一种基于cnn和transformer特征融合的单目深度估计方法,其特征在于:所述步骤1中的混合深度数据集包括nyu数据集、apolloscape数据集、town05数据集、redweb数据集和hr-wsi数据集组成,每个所述nyu数据集、apolloscape数据集、town05数据集、redweb数据集和hr-wsi数据集均由rgb图片和对应的深度图标签构成,将深度图标签规范到同一个深度空间,并用线性归一化,使深度值范围在[0,1]之间。

3.根据权利要求1所述的一种基于cnn和transformer特征融合的单目深度估计方法,其特征在于:所述步骤5将cnn特征图和四个transformer特征图输入所述引导融合模块,获得四个层级的特征图,具体包括以下步骤:

4.根据权利要求1所述的一种基于cnn和transformer特征融合的单目深度估计方法,其特征在于:所述步骤6中的残差卷积单元包括rel...

【专利技术属性】
技术研发人员:霍智勇王振东
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1