当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于双编码器-解码器的单目深度估计方法及系统技术方案

技术编号:39431956 阅读:13 留言:0更新日期:2023-11-19 16:16
本发明专利技术涉及一种基于双编码器

【技术实现步骤摘要】
一种基于双编码器

解码器的单目深度估计方法及系统


[0001]本专利技术涉及机器人视觉
,具体涉及一种基于双编码器

解码器的单目深度估计方法及系统。

技术介绍

[0002]汽车能够对周围场景中物体深度(距离)进行精确感知是实现安全决策的基础。人类希望智能驾驶汽车可以通过车载摄像头和激光雷达捕获车辆周围的场景信息进行思考判断,在感知周围环境变化的时候做出安全的决策。如何从摄像头获取的图像信息和激光雷达获取的稀疏深度信息中得到精确、稠密的深度图是目前急需解决的问题。
[0003]随着深度学习技术的巨大成功,出现了各种使用编码器

解码器架构的自监督单目深度估计方法。然而,大多数先前的方法直接使用单个编码器

解码器结构来回归深度图,这可能无法获得图像中足够的特征,并导致深度图精度低且细节模糊。并且大多网络结构的解码器侧在处理特征时只关注编码器侧相同分辨率下的特征,不利于不同分辨率之间特征信息的交换,有待改进。

技术实现思路

[0004]本专利技术的目的在于提供一种基于双编码器

解码器的单目深度估计方法及系统,该方法及系统有利于提高单目深度估计的精度和稠密性。
[0005]为了实现上述目的,本专利技术采用的技术方案是:一种基于双编码器

解码器的单目深度估计方法,包括以下步骤:
[0006]步骤S1:在第一个编码器

解码器网络,即全局特征提取网络中,提取图像的全局信息;
[0007]步骤S2:在第二个编码器

解码器网络,即深度估计网络中,根据输入的图像信息和全局信息对图像进行深度估计;
[0008]步骤S3:使用损失函数对整个网络的训练过程进行监督。
[0009]进一步地,步骤S1中,输入图像进入编码器首先经过卷积运算、正则化和非线性激活,然后按顺序经过PoolAttentionFormer模块和ResBlock模块,所述PoolAttentionFormer模块为提取全局特征信息的基本模块,并在特征输入到PoolAttentionFormer模块之前对特征应用最大池化操作;同一层的解码器和编码器通过跳跃连接;在解码器经过卷积和最近邻上采样后,先使用卷积匹配特征信息的维度,再进行反卷积,最终全局特征提取网络输出四个维度的特征信息,作为第二个编码器

解码器网络的输入进行融合。
[0010]进一步地,对输入图像进行卷积运算、正则化和非线性激活,表示为:
[0011]Z
s
=σ{BN[Conv(I)]}
[0012]其中,Conv、BN和σ分别表示卷积、正则化和高斯误差线性单元激活函数,Z
s
表示当前维度特征,s表示维度,I表示输入图像;
[0013]对特征Z
s
进行最大池化操作,以捕获重要特征并减少注意模块的输入大小,然后经过PoolAttentionFormer模块,表示为:
[0014][0015]其中,表示第一个编码器中经过相应维度卷积操作后的特征,s表示卷积操作的维度,W
s
表示PoolAttentionFormer模块的权重;
[0016]将得到的特征多次经过ResBlock模块和PoolAttentionFormer模块,以得到多个维度的特征,表示为:
[0017][0018]其中,R
s
表示ResBlock模块,s

1为s的上一个维度且s>96;
[0019]为了在解码器处恢复图像的全局信息,将特征回归到每个像素点,在解码器经过卷积和最近邻上采样后,先使用卷积来优化维度,再进行反卷积;解码过程表示为:
[0020][0021][0022]f
up
=UP[Conv(x)][0023]其中P
s
、P
s+1
为解码器中相应维度的中间输出,为解码器的最终输出,Conv表示卷积操作,UP表示上采样操作,Deconv表示反卷积操作;
[0024]为了形成像素点之间的相关性,解码器使用全局信息来重建每个点,重建的特征以四个维度输出,最终全局特征提取网络输出四个维度的特征信息。
[0025]进一步地,所述PoolAttentionFormer模块为一个令牌合成器,所述令牌合成器首先使用最大池化、卷积和平均池化这三个分支计算输入特征,最大池化分支用于获得特征的显著信息,平均池化分支用于获得特征的背景信息,卷积分支用于获得更多的语义信息,计算过程如下:
[0026]M=sum(F
max
,F
avg
,F
conv
)
[0027]其中,F
max
、F
avg
、F
conv
分别表示最大池化、平均池化、卷积后的特征,sum()表示求和;
[0028]然后使用通道注意力机制和空间注意力机制细化特征,从而使特征更紧凑地反映当前空间中的特征关系,提高网络性能;该过程表示为:
[0029][0030][0031]其中,CA()表示通道注意力,SA()表示空间注意力,表示矩阵乘法,表示矩阵加法。
[0032]进一步地,所述ResBlock模块用于增强PoolAttentionFormer模块之间传输的特征;所述ResBlock模块包括第一卷积层、批量归一化层、第二卷积层和GELU激活函数,在第一层卷积完成后执行批量归一化再进行第二层卷积,将第一卷积层和第二卷积层的输出相
加后输入GELU激活函数。
[0033]进一步地,步骤S2中,深度估计网络的编码器侧使用全局融合机制融合全局信息,深度估计网络的解码器侧使用多尺度融合机制对特征信息进行上采样获得深度图;在深度估计网络中,编码器结合相同分辨率下的全局特征,编码器获得足够的特征后,解码器对特征进行上采样以预测深度。
[0034]进一步地,所述深度估计网络的编码器侧的全局融合机制将输入图像及三层编码器的输出与第一个编码器

解码器的四个维度的输出相乘再相加得到映射特征图,从而将四维的全局特征指导信息融合到深度估计网络中;
[0035]所述深度估计网络的解码器侧的多尺度融合机制为解码器接受来自多个维度的特征的跳跃连接,包括与编码器相同维度的特征、编码器较低层维度的特征以及解码器较高层维度的特征;该些跳跃连接在上采样期间使用;解码器仅接受最后一层上采样相同分辨率的编码器侧的特征。
[0036]进一步地,所述全局融合机制为了将全局信息映射到每个像素上,首先将(s=3)与原始图像I相乘以获得表示该映射的特征图,然后将此特征图添加到原始图像I中,则该图像包含全局特征图初始输入阶段的信息;然后在后续的三个维度中,先将与同维度的相乘,得到映射特征图,然后将映射特征图与和相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双编码器

解码器的单目深度估计方法,其特征在于,包括以下步骤:步骤S1:在第一个编码器

解码器网络,即全局特征提取网络中,提取图像的全局信息;步骤S2:在第二个编码器

解码器网络,即深度估计网络中,根据输入的图像信息和全局信息对图像进行深度估计;步骤S3:使用损失函数对整个网络的训练过程进行监督。2.根据权利要求1所述的一种基于双编码器

解码器的单目深度估计方法,其特征在于,步骤S1中,输入图像进入编码器首先经过卷积运算、正则化和非线性激活,然后按顺序经过PoolAttentionFormer模块和ResBlock模块,所述PoolAttentionFormer模块为提取全局特征信息的基本模块,并在特征输入到PoolAttentionFormer模块之前对特征应用最大池化操作;同一层的解码器和编码器通过跳跃连接;在解码器经过卷积和最近邻上采样后,先使用卷积匹配特征信息的维度,再进行反卷积,最终全局特征提取网络输出四个维度的特征信息,作为第二个编码器

解码器网络的输入进行融合。3.根据权利要求2所述的一种基于双编码器

解码器的单目深度估计方法,其特征在于,对输入图像进行卷积运算、正则化和非线性激活,表示为:Z
s
=σ{BN[Conv(I)]}其中,Conv、BN和σ分别表示卷积、正则化和高斯误差线性单元激活函数,Z
s
表示当前维度特征,s表示维度,I表示输入图像;对特征Z
s
进行最大池化操作,以捕获重要特征并减少注意模块的输入大小,然后经过PoolAttentionFormer模块,表示为:其中,表示第一个编码器中经过相应维度卷积操作后的特征,s表示卷积操作的维度,W
s
表示PoolAttentionFormer模块的权重;将得到的特征多次经过ResBlock模块和PoolAttentionFormer模块,以得到多个维度的特征,表示为:其中,R
s
表示ResBlock模块,s

1为s的上一个维度且s>96;为了在解码器处恢复图像的全局信息,将特征回归到每个像素点,在解码器经过卷积和最近邻上采样后,先使用卷积来优化维度,再进行反卷积;解码过程表示为:和最近邻上采样后,先使用卷积来优化维度,再进行反卷积;解码过程表示为:f
up
=UP[Conv(x)]其中P
s
、P
s+1
为解码器中相应维度的中间输出,为解码器的最终输出,Conv表示卷积操作,UP表示上采样操作,Deconv表示反卷积操作;为了形成像素点之间的相关性,解码器使用全局信息来重建每个点,重建的特征以四
个维度输出,最终全局特征提取网络输出四个维度的特征信息。4.根据权利要求2所述的一种基于双编码器

解码器的单目深度估计方法,其特征在于,所述PoolAttentionFormer模块为一个令牌合成器,所述令牌合成器首先使用最大池化、卷积和平均池化这三个分支计算输入特征,最大池化分支用于获得特征的显著信息,平均池化分支用于获得特征的背景信息,卷积分支用于获得更多的语义信息,计算过程如下:M=sum(F
max
,F
avg
,F
conv
)其中,F
max
、F
avg
、F
conv
分别表示最大池化、平均池化、卷积后的特征,sum()表示求和;然后使用通道注意力机制和空间注意力机制细化特征,从而使特征更紧凑地反映当前空间中的特征关系,提高网络性能;该过程表示为:空间中的特征关系,提高网络性能;该过程表示为:其中,CA()表示通道注意力,SA()表示空间注意力,表示矩阵乘法,表示矩阵加法。5.根据权利要求2所述的一种基于双编码器

解码器的单目深度估计方法,其特征在于,所述ResBlock模块用于增强PoolAttentionFormer模块之间传输的特征;所述ResBlock模块包括第一卷积层、批量归一化层、第二卷积层和GELU激活函数,在第一层卷积完成后执行批量归一化再进行第二层卷积,将第一卷积层和第二卷积层的输出相加后输入GELU激活函数。6.根据权利要求1所述的一种基于双编码器

解码器的单目深度估计方法,其特征在于,步骤S2中,深度估计网络的编码器侧使用全局融合机制融合全局信息,深度估计网络的解码器侧使用多尺度融合机制对特征信息进行上采样获得深度图;在深度估计网络中,编码器结合相同分辨率下的全局特征,编码器获得足够的特征后,解码器对特征进行上采样以预测深度。7.根据权利要求6所述的一种基于双编码器

解码器的单目深度估计方法,其特征在于,所述深度估计网络的编码器侧的全局融合机制将输...

【专利技术属性】
技术研发人员:郑明魁苏哲罗林郑海峰叶张帆
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1