一种基于Transformer的单目深度估计算法制造技术

技术编号:35098290 阅读:20 留言:0更新日期:2022-10-01 17:03
本发明专利技术提出一种基于Transformer的单目深度估计算法,可以充分利用transformer来建立全局相关性,提高了网络对于细小物体的深度预测精度,同时使深度更具有一致性和连续性,其包括以下步骤:1)构建由卷积层、池化层以及Group Transformer所组成的编码器来提取不同分辨率的图像特征,充分利用不同尺度的特征信息;2)构建由卷积层、上采样层以及Group Transformer组成的解码器生成深度图;3)通过将编码器的不同分辨率信息通过Res Path模块,从而构建编解码器之间的联系连接到解码器上,以减少语义差距;4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。像重投影损失结合来优化模型。

【技术实现步骤摘要】
一种基于Transformer的单目深度估计算法


[0001]本专利技术提出一种基于Transformer的单目深度估计算法,将transformer应用到深度估计领域,解决了一直以来卷积所具有的局限性,提高了对于特征图的深度预测的准确性,使生成的深度图更具有一致性。属于数字图像处理领域。

技术介绍

[0002]卷积骨干网对输入图像进行渐进下采样,以在多个尺度上提取特征。下采样使得感受野逐渐增加,将低级特征分组为抽象的高级特征,同时确保网络的存储和计算需求保持易处理。然而,下采样具有明显的缺点,这在密集预测任务中尤为突出:特征分辨率和细粒度在模型的较深阶段丢失,因此可能难以在解码器中恢复。虽然要素分辨率和粒度对于某些任务(如影像分类)来说可能无关紧要,但对于密集预测来说却至关重要,在密集预测中,架构应该能够以输入影像的分辨率或接近输入影像的分辨率来解析要素。本专利技术解决了基于全卷积网络的缺点,有着十分重要的意义。
[0003]Transformer最初是为自然语言处理(NLP)任务提出的,作为一种具有远程依赖性的非局部操作,它已经成为许多计算机视觉任务中的一个热门话题。然而,由于自然语言和图像之间的差异,很难将Transformer直接应用于单目深度估计任务。自然语言的字数是有限的,但是像素的数量是随着图像大小的增加而二次增加的。有鉴于此,本专利技术设计了分组Transformer来解决单目深度估计中由于图像特点导致的计算量过大的问题。
[0004]Transformer具有提取全局上下文的能力,但也存在缺乏平移不变性的局限性,而局部性和平移等变是卷积的基本性质。因此,我们的Group Transformer 的3
×
3卷积不仅用于Group结构,而且有助于构建混合架构,其中卷积负责特征提取,而变换器被构建来模拟长程相关性。

技术实现思路

[0005]针对上述问题,本专利技术的是一种基于Transformer的单目深度估计算法,通过使用Group Transformer网络改进原始U

Net网络编解码器无法建立远程像素相关性问题,增强了网络对于细小物体等的预测精确度,专利技术基本流程如图1 所示。
[0006]本专利技术采取如下技术方案:一种基于Transformer的单目深度估计算法包括如下步骤:
[0007]1)构建由卷积层、池化层以及Group Transformer所组成的编码器来提取不同分辨率的图像特征,充分利用不同尺度的特征信息;
[0008]2)构建由卷积层、上采样层以及Group Transformer组成的解码器生成深度图;
[0009]3)通过将编码器的不同分辨率信息通过Res Path模块,从而构建编解码器之间的联系连接到解码器上,以减少语义差距;
[0010]4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。
[0011]本专利技术由于采取以上方法,其具有以下优点:
[0012]1、通过使用transformer模块建模全局信息;
[0013]2、采用了分组结构设计方法,降低了网络的复杂度。
[0014]3、在保证速度的同时有效提高检测精度,尤其是对语义边界不明显的图片。
附图说明
[0015]图1本专利技术基本流程图;
[0016]图2改进的编解码器结构;
[0017]图3残差连接细节图;
[0018]图4本专利技术网络整体改进后实验效果;
具体实施方式
[0019]下面结合说明书附图通过一个实例对本专利技术做进一步说明,本实例仅为本专利技术其中的一种应用实例。
[0020]步骤1)获取KITTI数据集的44234张图像,其中分为训练集39810张和测试集4424张,对所有图像使用相同的处理,将相机的主点设置为图像中心,焦距设置为KITTI中所有焦距的平均值。
[0021]本专利技术的编码器解码器网络是在U

Net的基础上改进,如图2所示,具体步骤为:
[0022]S11)将输入大小为640
×
192的特征图输入到编码器网络中,特征图会随着网络的加深逐渐变小、通道数逐渐变多。在编码器端,卷积层负责提取图片特征,transformer则负责建立全局相关性。
[0023]S12)如果输入为多张图片,即当采用单目视频序列时,图片数量为三张,分别为第0帧、第1帧和第2帧。
[0024]步骤2)在解码器端卷积层则负责生成深度图、上采样层负责上采样,使图片的大小逐渐变大,通道数逐渐变少。而transformer则负责充分解析来自于编码器的特征。
[0025]S41)通过采用边缘逐像素平滑度损失让边缘处的像素数值呈梯度式的下降,从而降低了边缘处的误差。
[0026]S42)采用图像重投影损失,即训练过程中首先将当前帧图像输入深层卷积神经网络,通过网络得到预测的深度图,然后利用网络得到的深度图和输入的上一帧图像重建出当前帧图像,并计算重建当前帧与真实的当前帧之间的损失函数。
[0027]在PyTorch上实现我们的模型,并在一台tesla v100s显卡上训练它们。我们使用Adam Optimizer,β1=0.9,β2=0.999。deepthnet和PoseNet被训练了20个纪元,每批12个。两种网络的初始学习速率均为1
×
10

3,并在15 个周期后以10的倍数衰减。训练序列由三幅连续图像组成。我们将SSIM权重设为α=0.85,平滑损失权重设为λ=1
×
10

3。
[0028]通过整合以上所有改进,形成了本文的网络,本专利技术的实验对比了 Monodepth2网络在KITTI数据集上的实验效果,通过Abs rel,Sq Rel,MSE, RMSE
log
,δ<1.25,δ<1.252,δ<1.253评价指标评估本专利技术提出的改进网络的性能,如图4所示。
[0029]本专利技术的保护范围也并不局限于此,任何熟悉本
的技术人员在本专利技术披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应该以权利要求书的保护范围为准。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的单目深度估计算法,其特征在于,包含如下步骤:1)构建由卷积层、池化层以及Group Transformer所组成的编码器来提取不同分辨率的图像特征,充分利用不同尺度的特征信息;2)构建由卷积层、上采样层以及Group Transformer组成的解码器生成深度图;3)通过将编码器的不同分辨率信息通过Res Path模块,从而构建编解码器之间的联系连接到解码器上,以减少语义差距;4)通过逐像素平滑度损失和图像重投影损失结合来优化模型。2.如权利要求1所述的一种基于Transformer的单目深度估计算法,其特征在于:所述步骤1)构建由卷积层、池化层以及Group Transformer组成的编码器来提取输入图像特征,充分利用不同尺度的特征信息,具体步骤为:S11)将输入大小为640
×
192的特征图输入到编码器网络中,通过3
×
3卷积,来改变特征图的通道数,通过池化层来改变特征图的大小,其中Group Transformer由一个跳跃连接、一个Group模块、3
×
3卷积、多头自注意力(MHSA)模块和一个合并模块组成。其中,跳跃连接用于解决梯度消失问题,保留低层信息。考虑到MHSA在跨n个实体全局执行时需要O(n2d)内存和计算量,Group模块和3
×
3卷积被设计为减少MHSA计算量。S12)如果输入为多张图片,即当采用单目视频序列时,图片数量为三张,分别为第0帧、第1帧和第2帧,当采用立体图像对为输入时,图片数量为两张,分别是左右图像对。此时初始输入通道数由3变为3
×
图片数量,并通过一层卷积核大小为7的卷积层。3.如权利要求1的一种基于Transformer的单目深度估计算法,其特征在于:所述步骤2),具体步骤为:首先接收来自解码器端的大小为20

【专利技术属性】
技术研发人员:郑秋梅于涛贺晓
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1