一种使用空域传播后处理模块的深度补全方法技术

技术编号:36039453 阅读:50 留言:0更新日期:2022-12-21 10:44
本发明专利技术公开了一种使用空域传播后处理模块的深度补全方法,首先确定深度估计网络模型;然后确定空域传播后处理模块;再对加上空域传播后处理模块的深度估计网络进行训练;最后通过训练好的模型完成深度补全。本发明专利技术相较于传统的单目深度估计、补全网络增加了额外的后处理过程,使得模型能够更加充分地利用来自LiDAR的精确稀疏深度信息,达到使深度补全结果更加准确的效果。果更加准确的效果。果更加准确的效果。

【技术实现步骤摘要】
一种使用空域传播后处理模块的深度补全方法


[0001]本专利技术属于计算机视觉领域,尤其针对深度传感系统,具体涉及一种使用空域传播后处理模块的深度补全方法。

技术介绍

[0002]近年来,随着计算机视觉应用的快速增长,单幅图像的深度估计,即预测每个像素到摄像机的距离已成为一个重要问题。它在诸如增强现实、无人机控制、自动驾驶和运动规划等领域有着广泛的应用。为了获得可靠的深度预测,利用来自各种传感器的信息,例如RGB相机、雷达、激光雷达和超声波传感器。深度传感器,例如LiDAR传感器,可产生高频率的精确深度测量。然而,由于硬件限制,例如扫描通道的数量,获取深度的密度通常是稀疏的。为了克服这些限制,根据给定的稀疏深度值来估计密集深度信息的方法称为深度补全。
[0003]亲和力矩阵是确定空间中两个点的距离或相似程度的通用矩阵。在计算机视觉任务中,它是一个加权图,它将每个像素视为一个节点,并通过一条边将每对像素连接起来。边上的权重反映了不同任务中成对像素的相似性。例如,对于低级视觉任务,如图像过滤,亲和度值应揭示颜色和纹理的低级连贯性;对于中高级视觉任务,如图像遮片和分割,亲和度度量应保持语义水平的成对相似性。利用亲和力矩阵可以将LiDAR传感器获取的稀疏深度向周围像素传播。因此我们的空域传播后处理模块就可以通过学习到的亲和力矩阵结合LiDAR传感器的数据可以对深度补全的结果进行后处理,达到更精准的深度估计效果。

技术实现思路

[0004]本专利技术主要考虑随着计算机视觉应用的快速增长,深度传感和估计在广泛的工程应用中至关重要。然而,现有的深度传感器,包括激光雷达、基于结构光的深度传感器和立体相机,都有其自身的局限性。例如,顶级3D LiDAR成本高昂(每单位成本高达75,000美元),且仅提供对远处物体的稀疏测量。基于结构光的深度传感器(例如Kinect)对阳光敏感且耗电,并且测距距离短。于是,如何降低深度估计成本和提高估计精度是值得探讨的问题。
[0005]针对现有技术中存在的不足,本专利技术提供一种使用空域传播后处理模块的深度补全方法。本专利技术针对单目深度补全问题,将传统的单目深度估计网络进行优化。传统单目深度估计网络只输出一张稠密深度图,而为了配合之后的空域传播后处理模块,我们让深度估计网络再额外输出一张亲和力图(亲和力矩阵),即将传统单目深度估计网络的输出从1通道设置为9通道,其中1通道作为深度图,其他8个通道用来表示亲和力图。因此我们的空域传播后处理模块就可以通过网络学习到的亲和力信息结合稀疏深度图对估计结果进行优化。通过此后处理方法来使估计出的结果更加精确,且只使用普通LiDAR来获取稀疏深度信息,结合常见RGB相机可以有效地降低深度估计成本。
[0006]一种使用空域传播后处理模块的深度补全方法,具体步骤如下:
[0007]步骤1、确定深度估计网络模型;
[0008]步骤2、确定空域传播后处理模块;
[0009]步骤3、对加上空域传播后处理模块的深度估计网络进行训练;
[0010]步骤4、通过训练好的模型完成深度补全;
[0011]进一步的,步骤1具体方法如下;
[0012]编码器部分使用ResNet50神经网络,解码器部分使用标准上采样,且每个残差块都要与对应的上采样层进行数值传递,即添加跳过连接。这两部分构成了深度估计网络,深度估计网络接收来自相机的RGB图和来自LiDAR的稀疏深度图,并输出初始深度图和亲和力图。
[0013]进一步的,步骤2具体方法如下;
[0014]空域传播后处理模块采用线性传播方式,根据步骤1确定的网络模型输出的亲和力图将初始深度图中每个像素的深度值向周围传播,最后再通过稀疏深度图替换相应位置的深度值。而其中传播的过程使用递归卷积运算的方式来实现。
[0015]给定深度估计网络输出的深度图D0,在每一次迭代时卷积核大小为k的卷积变换函数公式如下:
[0016]其中,
[0017]其中变换核是空间上依赖于输入图像的空域传播后处理模块的输出,t表示第t次迭代,κ
i,j
是归一化后的变换核,i和j表示图像中的第i行和第j列,a和b表示κ
i,j
中的相对位置(例如,a=0和b=0表示核的中心位置,a=1和b=1表示核的右下角位置),因此D
i,j,t+1
表示在第t+1次迭代位于深度图第i行和第j列的深度值,D
i

a,j

b,t
表示在第t次迭代位于深度图第i

a行和第j

b列的深度值,

表示逐元素相乘。卷积核的大小k在此设置为3,设置成奇数是为了使每个像素(i,j)周围的像素是对称的。卷积核的权值是由步骤1的亲和力图确定的,并且为了使模型稳定收敛,对卷积核的权值进行(

1,1)区间的归一化处理。之后,为了保证经过后处理后的深度在稀疏深度图中对应像素具有相同的值,通过下式实现:
[0018][0019]其中m
i,j
为判别函数,用于判别该像素是否是来自LiDAR采集的,若是则值为1,否则为0。表示来自LiDAR采集的稀疏深度图对应位置的深度值。
[0020]进一步的,步骤3具体方法如下;
[0021]训练平台采用Pytorch。分别采用NYU v2室内数据集和KITTI室外数据集对加上空域传播后处理模块的深度估计网络进行训练。其中ResNet

50网络模型的权重使用在
ImageNet数据集上预训练得到的结果进行初始化;优化器采用随机梯度下降SGD优化器,批量大小设为12并且迭代次数设为40;学习率初始化为0.01并且每10个迭代循环减少20%;权重衰减设置为0.00001用于正则化;在原始数据上采集500个像素点模拟LiDAR采样效果进行训练。
[0022]进一步的,步骤4具体方法如下;
[0023]训练好的完整模型需要接收两部分输入:来自相机的RGB视频图像和来自LiDAR的稀疏深度信息。首先通过深度估计网络得到初始稠密深度图和对应的亲和力图,再经过空域传播后处理模块得到最终的稠密深度图。
[0024]本专利技术有益效果如下:
[0025]本专利技术相较于传统的单目深度估计、补全网络增加了额外的后处理过程,使得模型能够更加充分地利用来自LiDAR的精确稀疏深度信息,达到使深度补全结果更加准确的效果。
附图说明
[0026]图1是本专利技术的整体网络模型图;
[0027]图2是本专利技术后处理部分的空域传播操作示意图;
具体实施方式
[0028]下面结合具体实施方式对本专利技术进行详细的说明。
[0029]本专利技术提出的使用空域传播后处理网络的深度补全方法,按照以下步骤实施。
[0030]步骤1、确定深度估计神经网络模型
[0031]编码器部分使用经典的ResNet
...

【技术保护点】

【技术特征摘要】
1.一种使用空域传播后处理模块的深度补全方法,其特征在于,步骤如下:步骤1、确定深度估计网络模型;步骤2、确定空域传播后处理模块;步骤3、对加上空域传播后处理模块的深度估计网络进行训练;步骤4、通过训练好的模型完成深度补全。2.根据权利要求1所述的一种使用空域传播后处理模块的深度补全方法,其特征在于,步骤1具体方法如下;编码器部分使用ResNet50神经网络,解码器部分使用标准上采样,且每个残差块都要与对应的上采样层进行数值传递,即添加跳过连接;这两部分构成了深度估计网络,深度估计网络接收来自相机的RGB图和来自LiDAR的稀疏深度图,并输出初始深度图和亲和力图。3.根据权利要求2所述的一种使用空域传播后处理模块的深度补全方法,其特征在于,步骤2具体方法如下;空域传播后处理模块采用线性传播方式,根据步骤1确定的网络模型输出的亲和力图将初始深度图中每个像素的深度值向周围传播,最后再通过稀疏深度图替换相应位置的深度值;而其中传播的过程使用递归卷积运算的方式来实现;给定深度估计网络输出的深度图D0,在每一次迭代时卷积核大小为k的卷积变换函数公式如下:其中,其中变换核是空间上依赖于输入图像的空域传播后处理模块的输出,t表示第t次迭代,κ
i,j
是归一化后的变换核,i和j表示图像中的第i行和第j列,a和b表示κ
i,j
中的相对位置,因此D
i,j,t+1
表示在第t+1次迭代位于深度图第i行和第j列的深度值,D
i

a,j

b,t
表示在第t次迭代位于深度图第i

a行和第...

【专利技术属性】
技术研发人员:颜成钢杨智文张杰华李亮陈楚翘高宇涵胡冀孙垚棋王鸿奎朱尊杰殷海兵张继勇李宗鹏
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1