基于可变形卷积的深度图补全方法技术

技术编号:30436907 阅读:10 留言:0更新日期:2021-10-24 17:38
提供了基于可变形卷积的深度图补全方法。本发明专利技术设计的基于可变形卷积的RGB图像数据引导的深度补全模型,该模型基于ENet的基本结构,从改进模型结构、增加可变形卷积、添加额外的监督信息三个方面提出了一种改进的深度补全模型,实验表明,这种改进的深度补全网络模型具有比ENet更高的补全精度以及相同的速度。型具有比ENet更高的补全精度以及相同的速度。型具有比ENet更高的补全精度以及相同的速度。

【技术实现步骤摘要】
基于可变形卷积的深度图补全方法


[0001]本专利技术提出基于可变形卷积的深度补全模型,属于图像数据处理
(G06T)
及图像增强
(G06T5)
领域。

技术介绍

[0002]深度补全任务是计算机视觉中的一项基础研究,它对于许多应用来说是至关重要的,包括机器人、增强现实、三维重建和SLAM等等。它的主要目标是利用高分辨率的RGB图像信息进行引导,从一张稀疏的深度图中预测出稠密的深度图。在实际场景中,深度图一般可以通过3D激光雷达或者立体相机获得,通过立体相机获得的深度信息依赖立体视觉算法,目前的立体视觉算法很难获得高精度信息。通过激光雷达获得的数据更加精确能够达到厘米级,所以像自动驾驶等这种户外场景的应用往往会采用3D激光雷达。然而,由于3D激光雷达的内在缺陷,获得的深度信息往往是离散分布的,这会导致的噪声以及物体边缘的不完整性。
[0003]为了解决这个问题,出现了一系列深度补全的方法。最近深度神经网络的发展,许多非常有效的方法都被提出来。这些方法中,主要分为带有图像引导和不带有图像引导两种。因为前者可以利用引导图像中包含的物体结构信息来获得更好的补全效果,因此受到了更广泛的研究和关注。带有图像引导的深度补全任务有两个具体的问题,包括1)引导图像的准确特征信息难以获得,尤其图像中不规则物体的边缘特征信息;2)补全任务的监督信息过于单一,过去的监督信息只包括深度补全结果与真实深度标签的均方误差损失,额外的监督信息难以获取。为了解决这些问题,最近的一些方法采用了多尺度特征,表面法向量,语义信息,上下文关联等方式进一步利用引导图像的特征,例如huang等人(https://ieeexplore.ieee.org/abstract/document/8946876/)采用了多尺度特征,qiu等人(https://openaccess.thecvf.com/content_CVPR_2019/html/Qiu_DeepLiDAR_Deep_Surface_Normal_Guided_Depth_Prediction_for_Outdoor_Scene_CVPR_2019_paper.html)引入了表面法向量信息,jaritz等人(https://ieeexplore.ieee.org/abstract/document/8490955)使用了图像的语义信息,Cheng等人(https://openaccess.thecvf.com/content_ECCV_2018/html/Xinjing_Cheng_Depth_Estimation_via_ECCV_2018_paper.html)使用了图像上下文的亲和性。
[0004]Gu等人在(https://ieeexplore.ieee.org/abstract/document/9357967)中添加了额外的结构损失,Chen等人(https://openaccess.thecvf.com/content_ICCV_2019/html/Chen_Learning_Joint_2D

3D_Representations_for_Depth_Completion_ICCV_2019_paper.html)将L2损失和smooth L1损失组合使用。此外,Uhrig等人(https://ieeexplore.ieee.org/abstract/document/8374553/)利用不同的稀疏稀疏不变性卷积,Eldesokey等人(https://openaccess.thecvf.com/content_CVPR_2020/html/Eldesokey_Uncertainty

Aware_CNNs_for_Depth_Completion_Uncertainty_from_Beginning_to_End_CVPR_2020_paper.html)增加了不确定性的探索,Tang等人(https://
ieeexplore.ieee.org/abstract/document/9286883)改进多模态融合策略等也进一步提升了性能。
[0005]KITTI(https://www.shapenet.org/)是目前深度补全领域最为权威的数据集之一,它包含了超过93000张深度图以及其相对应的雷达扫描信息和RGB图像信息,并且也提供了每张图像的相对应相机参数,因此可利用该数据集RGB图像数据信息,实现RGB图像数据引导下的深度补全。

技术实现思路

[0006]本专利技术的目的是基于深度学习的理论与方法,研究新型的、RGB图像数据引导下的稀疏图像深度补全模型,能够利用RGB图像数据引导稀疏图像深度补全为密集深度,同时引入了可变形卷积和额外的监督信息,且该模型的运算速度与最快的ENet模型(https://arxiv.org/abs/2103.00783)相同,补全准确率较ENet更高。
[0007]本专利技术设计了一种基于可变形卷积的RGB图像数据引导的深度补全模型,该模型基于ENet的基本结构,从改进模型结构、增加可变形卷积、添加额外的监督信息三个方面提出了一种改进的深度补全模型,实验表明,这种改进的深度补全网络模型具有比ENet更高的补全精度以及相同的速度。
[0008]本专利技术采用上述深度补全网络模型,首先对KITTI数据集中的RGB图像数据、稀疏深度数据和真实深度标签进行预处理,构建训练数据,然后训练可变形卷积的RGB引导深度补全模型,最后通过该深度补全网络模型生成稀疏深度数据对应的密集深度图。
[0009]本专利技术包括下列步骤:
[0010]步骤1、数据准备:
[0011]1.根据KITTI数据集的标准数据划分方式,86000组数据用来训练模型,1000组数据用来验证模型,同时另有1000组数据用来对模型进行测试。其中除测试数据外,其余每组数据均包含RGB图像数据、稀疏深度数据和通过激光雷达扫描获取的真实深度标签,而测试数据仅包含RGB图像数据和稀疏深度数据。
[0012]步骤2、训练深度补全模型:
[0013]1.构建用于深度补全的网络模型,所述网络模型分为四个部分。1)第一部分为RGB图像数据特征提取模块,用于提取输入的RGB图像数据的特征,该模块的网络主体架构为ResNet

50架构(https://openaccess.thecvf.com/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html),RGB图像从网络输入层开始,依次经过1个常规卷积层和10个残差卷积模块,每个残差卷积模块包含2个卷积层。残差卷积模块中的常规卷积替换为可变形卷积,可变形卷积原理(如图3),以保证物体边缘深度补全的准确性(如图4)。2)第二部分为稀疏深度数据特征提取模块,该部分的网络结构包括1个常规卷积层和10个残差卷积模块,每个残差卷积模块包含2个卷积层,残本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可变形卷积的深度补全方法,包括下列步骤:步骤一、数据准备;获取KITTI开源数据集,该数据集提供了RGB图像数据、相对应的稀疏深度数据以及真实深度标签;所述RGB图像数据的分辨率1241
×
376,稀疏深度数据中大约有5%的的像素数据是有效的,其深度值>0,而真实深度标签中有16%的像素数据是有效的;所获取的KITTI开源数据集包含86000例训练样本,且每例样本对应1份RGB图像数据,1份稀疏深度数据与1份真实深度标签;对所获取的KITTI开源数据集的RGB图像数据和稀疏深度数据进行归一化操作,使RGB图像数据各像素值和稀疏深度数据的各像素的深度值的取值范围限定在[0,1]内;对每例样本中的三种数据进行同样大小的随机裁剪操作,使每例样本中的三种数据的尺寸统一为1216
×
352;步骤二、对深度补全模型进行训练;将步骤一获得的训练样本的裁剪后的RGB图像数据和稀疏深度数据作为深度补全模型的输入,其中步骤一获得的的深度标签用于计算损失;所述深度补全模型包括:RGB图像数据特征提取模块、稀疏深度数据特征提取模块、RGB图像特征反卷积模块、深度增强模块以及融合模块;RGB图像特征提取模块包括依次串联的1个常规卷积层和10个残差卷积模块;稀疏深度数据特征提取模块包括依次串联的1个常规卷积层和10个残差卷积模块;RGB图像特征反卷积模块包括依次串联的5个反卷积模块和1个常规卷积层;深度增强模块包括依次串联的1个常规卷积层、10个残差卷积模块、5个反卷积模块和1个常规卷积层;其中RGB图像特征提取模块的残差卷积模块内包括的卷积层是可变形卷积,稀疏深度数据特征提取模块的残差卷积模块内包括的卷积层是常规卷积;RGB图像特征反卷积模块的常规卷积层输出的深度补全中间结果与训练样本的稀疏深度数据按通道进行拼接,得到的联合数据再被送入的深度增强模块;步骤一获得的训练样本裁剪后的RGB图像数据依次经过RGB图像特征提取模块的第1个常规卷积层、第2个残差卷积模块、第4个残差卷积模块、第6个残差卷积模块、第8个残差卷积模块和第10个残差卷积模块后分别得到大小为1216
×
352
×
32的第一特征图、608
×
176
×
64的第二特征图、304
×
88
×
128的第三特征图、152
×
44
×
256的第四特征图、76
×
22
×
512的第五特征图、38
×
11
×
1024的第六特征图;步骤一获得的训练样本的裁剪后的稀疏深度数据依次经过稀疏深度数据特征提取模块的第1个常规卷积层、第2个残差卷积模块、第4个残差卷积模块、第6个残差卷积模块、第8个残差卷积模块和第10个残差卷积模块后分别得到大小为1216
×
352
×
32的特征图A、608
×
176
×
64的特征图B、304
×
88
×
128特征图C、152
×
44
×
256的特征图D、76
×
22
×
512的特征图E、38
×
11
×
1024的特征图F;RGB图像特征提取模块处理输入的RGB图像数据得到的特征图与稀疏深度数据特征提取模块处理输入的稀疏深度数据产生的特征图对应按元素相加,其中RGB图像数据特征提取模块产生的第一特征图、第二特征图、第三特征图、第四特征图、第五特征图分别与稀疏深度数据特征提取模块产生的特征图A、特征图B、特征图C、特征图D、特征图E依次对应相加,产生大小不变的第一新特征图、第二新特征图、第三新特征图、第四新特征图、第五新特征图,这些新特征图分别作为稀疏深度数据特征提取模块的第1个残差卷积模块、第3个残
差卷积模块、第5个残差卷积模块、第7个残差卷积模块和第9个残差卷积模块的输入继续参与向前传播;RGB图像特征反卷积模块,用于对RGB图像数据特征提取模块与稀疏深度数据特征提取模块处理后的RGB图像数据特征和稀疏深度数据特征进行升维,生成待增强的深度补全中间结果;RGB图像特征反卷积模块的输入是RGB图像数据特征提取模块产生的第六特征图和稀疏深度数据特征提取模块产生的特征图F按元素相加的产生的第六新特征图,其大小为38
×
11
×
1024,该第六新特征图依次经过RGB图像特征反卷积模块的5个反卷积模块分别得到大小为76
×
22
×
512、152
×
44
×
256、304
×
88
×
128、608
×
176
×
64、1216
×
352
×
32的第七特征图、第八特征图、第九特征图、第十特征图和第十一特征图,其中反卷积模块包含反卷积层、归一化层和激活层;此过程中得到的第七特征图、第八特征图、第九特征图、第十特征图和第十一特征图依次与稀疏深度数据特征提取模块输出的特征图E、特征图D、特征图C、特征图B及特征图A按元素相加,得到的第十一特征图经过RGB图像特征反卷积模块的常规卷积层得到大小为1216
×
352
×
2的输出,输出的深度补全中间结果包含大小为1216
×
352
×
1的深度补全中间结果和对应的大小为1216
×
352
×
1的置信权重;深度增强模块用于增强RGB图像反卷积模块得到深度补全中间结果,深度增强模块的输入是深度补全中间结果和训练样本的稀疏深度数据按通道方向拼接得到的所述联合数据,所述联合数据大小为1216
×
352
×
2,所述联合数据依次经过深度增强模块的1个常规卷积层与10个残差卷积模块得到大小为38
×
11
×
1024的特征图f,特征图f与RGB图像数据特征提取模块产生的第六特征图和稀疏深度数据特征提取模块产生的特征图F的相加结果再次相加,得到的结果作为深度增强模块的第一反卷积模块的输入;深度增强模块的第5至第1个反卷积模块产生的特征图分别与深度增强模块的第1个常规卷积层及第2、4、6、8个残差卷积模块产生的特征图a、特征图b、特征图c、特征图d、特征图e按通道方向做拼接,使特征层次更加丰富;深度增强模块得到大小为1216
×
352
×
2的输出,输出包含大小为1216
×
352
×
1的深度补全增强结果和对应的大小为1216
×
352
×
1的置信权重。融合模块将深度补全中间结果和深度补全增强结果分别与各自的置信权重相加并对两个相加的结果再求和,得到深度补全模型输出的最终的深度预测结果;深度补全...

【专利技术属性】
技术研发人员:童超杨冠群
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1