融合全尺度和相邻帧特征信息的无监督单目深度估计方法技术

技术编号:37495204 阅读:22 留言:0更新日期:2023-05-07 09:32
本发明专利技术涉及一种融合全尺度和相邻帧特征信息的无监督单目深度估计方法,属于深度估计领域。用深度可分离卷积代替了编码端Resnet18网络中传统的卷积残差块,减少网络的参数量,提高深度估计效率,也解决了由于过度下采样造成的细节特征损失;利用全尺度长跳跃接连融合来自编码端的细粒度语义和来自解码端的粗粒度语义,解决场景中虚假纹理和边缘模糊问题;设计了基于相邻帧时序信息的一致性损失函数,利用参考帧的深度值对目标帧的深度值进行预测,充分利用相邻帧特征图的有效信息,提升深度估计预测结果的准确性。度估计预测结果的准确性。度估计预测结果的准确性。

【技术实现步骤摘要】
融合全尺度和相邻帧特征信息的无监督单目深度估计方法


[0001]本专利技术涉及深度估计领域,特别是涉及一种融合全尺度和相邻帧特征信息的无监督单目深度估计方法。

技术介绍

[0002]随着无人机(Unmanned Aerial Vehicle,UAV)领域的开放,UAV避障研究日益受到重视,将深度估计应用到UAV飞行过程中的障碍物检测环节能够有效促进UAV自主防碰撞技术的发展与应用。
[0003]目前,无监督的单目图像的深度估算可主要归纳为以下两种思路:其中一种是对双目图像进行空间约束关系的检测与训练,如Garg等将根据视差还原的虚拟图像与实际图像之间的光度差视为用于监督的训练信号。但是因为双目相机的基线距离与检测的深度尺度具有联动关系,使得相机之间无法通用。二是利用单目视频进行自监督的方式。比如Zhou等在估计相机运动轨迹的基础上,根据相机的位姿变换还原虚拟图像,并将其与实际图像之间的光度差视为监督信号。尽管所获得的位姿能够有效地限制图像像素点的空间约束关系,但是由于相机位姿的估计存在着一定的偏差,无法达到实用要求。当前效果最可靠的深度估计算法大多基于编解码结构,在编码端实现图像特征提取的基础上同时求解相机位姿变换和深度值。通过相邻帧间的变换对应关系进行最小重投影损失函数计算,避免了遮挡等纹理稀疏区域导致的估算误差。然而,由于算法的解码器通常采用反卷积网络进行图像重建,因此编码端的持续下采样必然会引起小尺度低层细节特征信息的丢失,进而影响深度估计准确性,并且随着网络层数的加深,上述特征退化问题越严重,低时效性问题也更加突出。

技术实现思路

[0004]本专利技术的目的是提供一种融合全尺度和相邻帧特征信息的无监督单目深度估计方法,以提高深度估计的效率和精度。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种融合全尺度和相邻帧特征信息的无监督单目深度估计方法,包括:
[0007]将ResNet18残差网络中的卷积残差块替换为深度可分离卷积块,获得编码器;
[0008]利用反卷积神经网络构建解码器,并在解码器的每层中利用全尺度长跳跃接连融合编码器的语义特征和解码器的语义特征,获得全尺度融合重构解码器;
[0009]以所述编码器和所述全尺度融合重构解码器构成的网络为基础架构,分别构建无监督单目深度估计网络、相机位姿估计网络和相邻帧信息对照网络;
[0010]建立最小化亮度误差损失函数、平滑损失函数和基于相邻帧时序信息的一致性损失函数;
[0011]利用无人机飞行过程中拍摄到的单目视频序列样本对无监督单目深度估计网络进行训练,获得训练好的无监督单目深度估计网络;所述训练的过程为:将单目视频序列中
的每帧图像输入无监督单目深度估计网络,输出每帧的预测深度图,并将单目视频序列中的连续两帧图像输入相机位姿估计网络,输出帧间相机位姿;将任一帧作为目标帧,根据目标帧的预测深度图和目标帧对应的帧间相机位姿获得目标帧的重构图像,在目标帧的重构图像与目标帧图像之间采用最小化亮度误差损失函数和平滑损失函数;对目标帧的相邻帧的预测深度图分别进行重采样后输入相邻帧信息对照网络,输出目标帧的重构预测深度图,在目标帧的重构预测深度图与目标帧的预测深度图之间采用所述一致性损失函数;
[0012]将无人机飞行过程中拍摄到的实时单目图像输入至训练好的无监督单目深度估计网络,获得实时单目图像的深度图。
[0013]可选的,所述深度可分离卷积块的卷积方式为:针对通道维度的逐深度卷积和针对空间维度的逐点卷积;
[0014]所述逐深度卷积的参数数量为:N
depth
=output size
×
output size
×
3;式中,N
depth
表示逐深度卷积的参数数量,output size表示输出特征图的尺寸;
[0015]所述逐点卷积的参数数量为:N
point
=1
×1×3×
M;式中,N
point
表示逐点卷积的参数数量,M表示卷积层中滤波器的数量。
[0016]可选的,所述在解码器的每层中利用全尺度长跳跃接连融合编码器的语义特征和解码器的语义特征,具体包括:
[0017]每个解码器层与所有编码器层跳层连接,每个解码器层还与各自前面的所有解码器层跳层连接;
[0018]每个解码器层的输入不仅包含解码器的特征信息,还包含所有编码器层的特征信息。
[0019]可选的,所述最小化亮度误差损失函数为式中,L
p
表示最小化亮度误差损失函数,I
t
表示t时刻的单目图像,I

t
表示t时刻的重构图像;Pe(I
t
,I

t
)表示亮度投影误差,λ为超参数,SSIM()表示相似度函数,|| ||1表示L1范数;
[0020]所述平滑损失函数为式中,L
Sm
表示平滑损失函数,N表示像素总数,分别表示图像在x、y方向上的梯度,表示平均正则逆深度;
[0021]所述基于相邻帧时序信息的一致性损失函数为式中,L
c
表示基于相邻帧时序信息的一致性损失函数,D
t
表示目标帧的预测深度图,表示目标帧的重构预测深度图。
[0022]可选的,所述对目标帧的相邻帧的预测深度图分别进行重采样后输入相邻帧信息对照网络,输出目标帧的重构预测深度图,具体包括:
[0023]对所述相邻帧的预测深度图使用重投影关系分别进行重采样,得到相邻帧的重投影图像;
[0024]依据公式将重投影图像中落在成像坐标系外的像素值置为零;式中,D

t

表示相邻帧的重投影图像,p
t

表示重投影图像的像素坐标;
[0025]将每个处理后的重投影图像输入至相邻帧信息对照网络,输出每个重投影图像的掩膜;
[0026]依据公式将处理后的重投影图像与各自对应的掩膜进行加权求和,得到目标帧的重构预测深度图;式中,W
t'
表示t

时刻的掩膜。
[0027]可选的,所述根据目标帧的预测深度图和目标帧对应的帧间相机位姿获得目标帧的重构图像,具体包括:
[0028]根据目标帧的预测深度图和目标帧对应的帧间相机位姿,依据公式p
t'
=KT
t

t'
D
t
(p
t
)K
‑1p
t
,确定目标帧的重构图像;
[0029]其中,K表示相机内参,p
t
表示目标帧的预测深度图的像素位置,T
t

t

表示t时刻与t

时刻的帧间相机位姿。
[0030]一种融合全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合全尺度和相邻帧特征信息的无监督单目深度估计方法,其特征在于,包括:将ResNet18残差网络中的卷积残差块替换为深度可分离卷积块,获得编码器;利用反卷积神经网络构建解码器,并在解码器的每层中利用全尺度长跳跃接连融合编码器的语义特征和解码器的语义特征,获得全尺度融合重构解码器;以所述编码器和所述全尺度融合重构解码器构成的网络为基础架构,分别构建无监督单目深度估计网络、相机位姿估计网络和相邻帧信息对照网络;建立最小化亮度误差损失函数、平滑损失函数和基于相邻帧时序信息的一致性损失函数;利用无人机飞行过程中拍摄到的单目视频序列样本对无监督单目深度估计网络进行训练,获得训练好的无监督单目深度估计网络;所述训练的过程为:将单目视频序列中的每帧图像输入无监督单目深度估计网络,输出每帧的预测深度图,并将单目视频序列中的连续两帧图像输入相机位姿估计网络,输出帧间相机位姿;将任一帧作为目标帧,根据目标帧的预测深度图和目标帧对应的帧间相机位姿获得目标帧的重构图像,在目标帧的重构图像与目标帧图像之间采用最小化亮度误差损失函数和平滑损失函数;对目标帧的相邻帧的预测深度图分别进行重采样后输入相邻帧信息对照网络,输出目标帧的重构预测深度图,在目标帧的重构预测深度图与目标帧的预测深度图之间采用所述一致性损失函数;将无人机飞行过程中拍摄到的实时单目图像输入至训练好的无监督单目深度估计网络,获得实时单目图像的深度图。2.根据权利要求1所述的融合全尺度和相邻帧特征信息的无监督单目深度估计方法,其特征在于,所述深度可分离卷积块的卷积方式为:针对通道维度的逐深度卷积和针对空间维度的逐点卷积;所述逐深度卷积的参数数量为:N
depth
=output size
×
output size
×
3;式中,N
depth
表示逐深度卷积的参数数量,output size表示输出特征图的尺寸;所述逐点卷积的参数数量为:N
point
=1
×1×3×
M;式中,N
point
表示逐点卷积的参数数量,M表示卷积层中滤波器的数量。3.根据权利要求1所述的融合全尺度和相邻帧特征信息的无监督单目深度估计方法,其特征在于,所述在解码器的每层中利用全尺度长跳跃接连融合编码器的语义特征和解码器的语义特征,具体包括:每个解码器层与所有编码器层跳层连接,每个解码器层还与各自前面的所有解码器层跳层连接;每个解码器层的输入不仅包含解码器的特征信息,还包含所有编码器层的特征信息。4.根据权利要求1所述的融合全尺度和相邻帧特征信息的无监督单目深度估计方法,其特征在于,所述最小化亮度误差损失函数为式中,L
p
表示最小化亮度误差损失函数,I
t
表示t时刻的单目图像,I

t
表示t时刻的重构图像;Pe(I
t
,I

t
)表示亮度投影误差,λ为超参数,SSIM()表示相似度函数,|| ||1表示L1范数;
所述平滑损失函数为式中,L
Sm
表示平滑损失函数,N表示像素总数,分别表示图像在x、y方向上的梯度,表示平均正则逆深度;所述基于相邻帧时序信息的一致性损失函数为式中,L
c
表示基于相邻帧时序信息的一致性损失函数,D
t
表示目标帧的预测深度图,表示目标帧的重构预测深度图。5.根据权利要求4所述的融合全尺度和相邻帧特征信息的无监督单目深度估...

【专利技术属性】
技术研发人员:张毅杨秀霞王晨蕾刘伟李文强韩庆田于浩姜子劼
申请(专利权)人:中国人民解放军海军航空大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1