一种基于多尺度特征融合的单目深度估计方法技术

技术编号:31717695 阅读:17 留言:0更新日期:2022-01-01 11:25
本发明专利技术涉及一种基于多尺度特征融合的单目深度估计方法,属于三维场景感知领域,包括以下步骤:S1:引入Non

【技术实现步骤摘要】
一种基于多尺度特征融合的单目深度估计方法


[0001]本专利技术属于三维场景感知领域,涉及一种基于多尺度特征融合的单目深度估计方法。

技术介绍

[0002]目前主流的单目深度估计方法分为无监督学习方法和有监督学习方法。无监督学习方法不需要采集真实的深度标签,训练时利用原图像和目标图像构成的立体图像对,首先利用编码器预测原图像的深度图,然后用解码器结合目标图片和预测的深度图重构原图,将重构的图片与原图对比计算损失。有监督学习方法是目前最流行的方法之一,通常利用深度相机或激光雷达采集深度标签,把图像深度估计作为回归任务或者是分类任务进行处理。大多数单目深度估计模型的编码网络由于特征提取不充分及特征提取阶段会丢失空间结构信息,并且由于实际场景结构复杂,普通的局部卷积模块难以考虑特征上下文之间的空间结构关系,造成估计深度图尺度模糊和失真的现象发生。针对这个问题,文献“Chen等人,Structure

aware residual pyramid network for monocular depth estimation.In the International Joint Conference on Artificial Intelligence(IJCAI).2019”提出利用残差金字塔网络构建了多尺度特征融合模块,其通过提取不同尺度的特征,获取结构层次更加明显的深度图,虽然该网络结构的设计能够大幅度的提高图像深度估计的精度,但是其网络模型复杂,计算开销大。文献“Chen等人,Attention/>‑
based context aggregation network for monocular depth estimation.2019”使用基于注意力的聚合网络来捕获连续的上下文信息,并集成图像级和像素级上下文信息,但是并不能在多个尺度上的特征之间进行上下文信息的捕获以及空间信息的交互。
[0003]综上所述,目前在单目深度估计
存在的问题是:1)在基于深度学习的图像深度估计领域,网络结构大多数采用的是编解码结构,编码网络在进行特征提取阶段会造成特征提取不充分、空间信息丢失等问题,导致网络难以学习图像中的一些细节信息。2)解码网络在对高维的语义特征进行不断的上采样过程中会丢失部分图像特征,导致深度图重建的效果差,不利于细粒度深度图的预测。3)单目深度估计面临的实际场景结构复杂,如果不有效的考虑场景中的空间结构关系,会造成估计的深度图精度不高。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种基于多尺度特征融合的单目深度估计方法,针对单目深度估计编码网络特征提取不充分、特征提取阶段容易丢失空间信息导致的网络难以学习更多的细节信息,引入了Non

Local模块,在改进Non

Local的同时构建了基于注意力机制的多尺度特征融合模块。在解码网络中,采用空洞空间金字塔池化模块中的空洞卷积弥补普通局部卷积模块感受野不足,并且极大的解决了深度图重建过程中由于上采样造成的图像特征丢失等问题,提高单目深度估计的精度,解决深度图尺度模糊及失真等系列问题。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]一种基于多尺度特征融合的单目深度估计方法,包括以下步骤:
[0007]S1:引入Non

Local注意力机制,构造混合的归一化函数;
[0008]S2:在特征提取网络的本层特征、深层特征和浅层特征之间引入注意力机制,计算特征图上特征之间的关联信息矩阵;
[0009]S3:构建多尺度特征融合模块;
[0010]S4:在解码网络引入空洞空间金字塔池化模块,扩大卷积的感受野,迫使网络学习更多的局部细节信息。
[0011]进一步,所述步骤S1包括:
[0012]在Non

Local的基础上,构造混合的SoftMox层作为归一化函数,归一化函数的计算公式如下:
[0013][0014][0015]其中是第n个部分的相似度得分,i是特征图上的当前像素点,j是特征图上的所有像素点,π
n
表示第n个聚合权重,N表示特征图划分的数量,w
n
是一个网络训练中可学习的线性向量,是对应于特征图X上每个区域k
j
的算数均值。
[0016]进一步,所述步骤S2具体包括以下步骤:
[0017]S21:通过自转换,利用特征图上的其它特征点k
j
来对当前特征点q
i
进行关系建模,计算公式如下:
[0018][0019][0020]其中,w
i,j
表示空间注意力图,F
mos
(
·
)表示归一化函数,q
i,n
表示索引,k
j,n
表示键,表示逐元素相乘,表示自转换后的特征图,v
j
表示值;
[0021]S22:通过自上而下的特征转换,利用高维的语义信息对低维特征的上下文信息进行建模,计算公式如下:
[0022]w
i,j
=F
mos
(F
eud
(q
i,n
,k
j,n
))
[0023][0024]式中,F
eud
(
·
)表示特征图上两个像素点之间的欧式距离;
[0025]S23:通过自下而上的特征转换,在不同尺度的特征图通道之间进行相关信息建模,具体的计算公式如下:
[0026]w=GAP(K)
[0027]Q
att
=F
att
(Q,w)
[0028]V
dow
=F
sconv
(V)
[0029][0030]其中,w表示通道注意力图,GAP表示全局平均池化,K表示网络浅层特征图的键,Q
att
表示经过通道注意力加权后的特征,F
att
(
·
)代表外积函数,Q表示网络深层特征图的索引,V
dow
表示下采样后的特征图,F
sconv
(
·
)是带步长的3
×
3卷积,V表示网络浅层特征图的值,表示经过自下而上转换的特征图,F
conv
(
·
)是用来细化的3
×
3卷积,F
add
(
·
)表示两个特征图进行逐元素相加之后再次通过3
×
3卷积处理。
[0031]进一步,所述步骤S3中,对编码网络的中间4层特征分别进行步骤S2中的三种特征转换,得到多个增强后的高级特征,然后对增强后的特征按尺度进行特征重排,将相同大小的特征与编码网络上的原特征进行级联,最后通过一个3...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征融合的单目深度估计方法,其特征在于:包括以下步骤:S1:引入Non

Local注意力机制,构造混合的归一化函数;S2:在特征提取网络的本层特征、深层特征和浅层特征之间引入注意力机制,计算特征图上特征之间的关联信息矩阵;S3:构建多尺度特征融合模块;S4:在解码网络引入空洞空间金字塔池化模块,扩大卷积的感受野,迫使网络学习更多的局部细节信息。2.根据权利要求1所述的基于多尺度特征融合的单目深度估计方法,其特征在于:所述步骤S1包括:在Non

Local的基础上,构造混合的SoftMox层作为归一化函数,归一化函数的计算公式如下:式如下:其中是第n个部分的相似度得分,i是特征图上的当前像素点,j是特征图上的所有像素点,π
n
表示第n个聚合权重,N表示特征图划分的数量,w
n
是一个网络训练中可学习的线性向量,是对应于特征图X上每个区域k
j
的算数均值。3.根据权利要求1所述的基于多尺度特征融合的单目深度估计方法,其特征在于:所述步骤S2具体包括以下步骤:S21:通过自转换,利用特征图上的其它特征点k
j
来对当前特征点q
i
进行关系建模,计算公式如下:公式如下:其中,w
i,j
表示空间注意力图,F
mos
(
·
)表示归一化函数,q
i,n
表示索引,k
j,n
表示键,表示逐元素相乘,表示自转换后的特征图,v
j
表示值;S22:通过自上而下的特征转换,利用高维的语义信息对低维特征的上下文信息进行建模,计算公式如下:w
i,j
=F
mos
(F
eud
(q
i,n
,k
j,n
))式中,F
eud
(
·
)表示特征图上两个像素点之间的欧式距离;S23:通过自下而上的特征转换,在不同尺度的特...

【专利技术属性】
技术研发人员:周非邓朝龙张黎敏
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1