一种基于点云学习的无监督单目深度估计方法技术

技术编号:39161160 阅读:19 留言:0更新日期:2023-10-23 15:02
本发明专利技术属于计算机视觉图像处理领域,公开一种基于点云学习的无监督单目深度估计方法,包括:准备数据集;将训练集分批输入无监督单目点云估计模型,模型输出与输入图像对应的预测点云、位姿变化,计算与输入图像对应的重投影图像和重建点云,计算训练总损失,包括重投影损失、预测点云的自监督约束损失、预测点云的帧间约束损失、边缘平滑损失;使用总损失约束模型训练,到最优的无监督单目点云估计模型;准备用于3D目标检测的数据集,用预测点云文件替换真实点云文件;训练3D目标检测模型,得到最优3D目标检测模型。本发明专利技术深入挖掘纯图像方法,通过直接估计点云并引入点云约束,提升了道路场景的深度估计及3D目标检测精度。升了道路场景的深度估计及3D目标检测精度。升了道路场景的深度估计及3D目标检测精度。

【技术实现步骤摘要】
一种基于点云学习的无监督单目深度估计方法


[0001]本专利技术涉及计算机视觉图像处理领域,具体的说是涉及一种基于点云学习的无监督单目深度估计方法。

技术介绍

[0002]场景的深度估计是计算机视觉中的经典问题,对3D重建、遮挡处理与光照估计等问题有重要作用。从图像中获得深度信息的本质是构建一个关联图像信息和深度信息的模型。获取深度信息有助于更好地理解3D场景,也有助于许多计算机视觉任务,如室内定位、高度估计、同时定位和映射(SLAM)、视觉里程计、分类等。相较于通过激光测距仪等各种硬件设备获取物体表面上一定数量点的深度,基于图像的深度估计方法由于不需要昂贵的设备仪器和专业人员,具有更广的应用范围。
[0003]现在,利用深度学习已经成为研究解决深度估计问题的主流途径,面对价格高昂的激光雷达传感器和成本巨大的超大规模人工标注数据集,无监督单目深度估计方法是时下研究的热点。
[0004]具体到智能驾驶领域,也就是在道路场景下,想要实现目标检测的可靠稳定,那么就必须要求深度估计的快捷精准。这说明,深度估计的精度会很大程度上影响3D目标检测的效果,3D目标检测可以视为深度估计的下游任务。在深度估计方面,先前的探索中往往只在纯图像方向上思考与实践,从3D目标检测的角度出发、关注深度估计精度对3D目标检测效果的影响,无监督单目深度估计方案并未针对优化设计。在3D目标检测方面,现实智能驾驶系统的传感器大多采用激光雷达数据作为输入,而纯图像作为输入的3D目标检测方案精度并不理想。
[0005]伪雷达方法(Yan Wang,Wei

Lun Chao,Divyansh Garg,Bharath Hariharan,Mark Campbell,Kilian Q.Weinberger.Pseudo

LiDAR from Visual Depth Estimation:Bridging the Gap in 3DObject Detection for Autonomous Driving.In CVPR,2019)在深度估计和基于激光雷达的3D目标检测这一对上下游任务之间架起了桥梁。将预测出的深度图转换为伪雷达(Pseudo

LiDAR),可以将伪雷达直接用于训练基于激光雷达的3D目标检测模型。这虽然意味着基于激光雷达的3D目标检测任务不再依赖真实的激光雷达数据,但却额外引入上下游任务之间数据转换的操作。如ZL2023100625454公开了一种面向3D目标检测的点云一致性约束单目深度估计方法,在纯图像方法下,无监督单目深度估计任务和3D目标检测任务之间必须依赖伪雷达。

技术实现思路

[0006]本专利技术提出了一种基于点云学习的无监督单目深度估计方法,用于解决在纯图像方法下,无监督单目深度估计任务和3D目标检测任务之间必须依赖伪雷达方法的问题,该方法提出无监督单目点云估计模型,利用点云约束训练所述模型,提升无监督单目深度估计的精度和3D目标检测的精度。
[0007]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0008]本专利技术是一种基于点云学习的无监督单目深度估计方法,包括:
[0009]无监督单目点云估计模型,其为编解码器架构,编码器,ResNet18模型,用于提取场景图像的特征;解码器,点云解码器,用于解码所述特征并输出场景的预测点云,所述点云解码器包含多个上采样层和输出层,所述多个输出层对应与输入图像对应的预测点云的三个维度,所述三个维度分别对应三维空间的三个维度,所述第三维度对应深度;
[0010]训练总损失,所述训练总损失包括重投影损失、预测点云的自监督约束损失、预测点云的帧间约束损失、边缘平滑损失;
[0011]训练方法,准备用于无监督单目深度估计的数据集,包含道路场景的单目图像,将其划分为深度估计训练集和深度估计验证集;将所述深度估计训练集分批输入所述无监督单目点云估计模型,模型输出与输入图像对应的预测点云、相机位姿变化,并计算得到与输入图像对应的重投影图像和重建点云;计算训练总损失;使用训练总损失训练优化所述的无监督单目点云估计模型;使用所述深度估计验证集评估模型的深度估计性能;准备用于3D目标检测的数据集,包含道路场景的单目图像和其对应的预测点云,所述预测点云由无监督点云估计模型估计得到,将3D目标检测数据集划分为3D检测训练集和3D检测验证集;使用所述3D检测训练集训练3D目标检测模型,得到最优3D目标检测模型,并在所述3D检测验证集上验证。
[0012]进一步地,训练方法具体包括如下步骤:
[0013]步骤S1:准备用于无监督单目深度估计的数据集D1,数据集包括训练集D1

T和验证集D1

E,所述训练集包括摄影设备拍摄的多组时间连续单目图像,所述验证集包括摄影设备拍摄的多张不连续单目图像;
[0014]步骤S2:将训练集D1

T分批输入无监督单目点云估计模型,每批训练数据包括多组连续单目图像,模型输出用于计算损失的数据,所述输出数据包括与输入图像对应的预测点云、与输入图像对应的摄影设备位姿变化;
[0015]步骤S3:根据步骤S2所得的点云和位姿变化,计算与输入图像对应的重投影图像和重建点云;
[0016]步骤S4:根据步骤S2所得的预测点云和步骤S3所得的重投影图像、重建点云,计算训练总损失,其中所述训练总损失包括重投影损失、预测点云的自监督约束损失、预测点云的帧间约束损失、边缘平滑损失;
[0017]步骤S5:使用步骤S4所得训练总损失训练步骤S2所述的无监督单目点云估计模型,优化得到最优的无监督单目点云估计模型,使用D1

E对其验证,计算深度估计指标;
[0018]步骤S6:准备用于3D目标检测的数据集D2,数据集包括训练集D2

T和验证集D2

E,所述训练集和验证集均包括摄影设备拍摄的多张不连续单目图像、所述图像对应的点云文件,所述点云文件是步骤S2所得输入图像对应的预测点云;
[0019]步骤S7:使用训练集D2

T训练3D目标检测模型,得到最优3D目标检测模型,使用验证集D2

E对其验证,计算3D目标检测指标。
[0020]进一步地,训练总损失表示为:
[0021]L=αL
rp
+β1L
s

pcc
+β2L
f

pcc
+γL
es
[0022]其中L是训练总损失,L
rp
是重投影损失(reprojection loss),L
s

pcc
是预测点云的
自监督约束损失(self

supervised constraint loss for predicting point c本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于点云学习的无监督单目深度估计方法,其特征在于:所述无监督单目深度估计方法包括如下步骤:步骤1:准备用于无监督单目深度估计的数据集D1,数据集包括训练集D1

T和验证集D1

E,所述训练集包括摄影设备拍摄的多组时间连续单目图像,所述验证集包括摄影设备拍摄的多张不连续单目图像;步骤2:将训练集D1

T分批输入无监督单目点云估计模型,每批训练数据包括多组连续单目图像,模型输出用于计算损失的数据,输出数据包括与输入图像对应的预测点云、与输入图像对应的摄影设备位姿变化,其中,所述无监督单目点云估计模型为编码器解码器架构,其中:编码器为ResNet18模型,用于提取场景图像的特征,解码器为点云解码器,用于解码场景图像的特征并输出场景的预测点云;步骤3:根据步骤2所得的预测点云和摄影设备位姿变化,计算与输入图像对应的重投影图像和重建点云;步骤4:根据步骤2所得的预测点云和步骤3所得的重投影图像、重建点云,计算训练总损失,其中所述训练总损失包括重投影损失、预测点云的自监督约束损失、预测点云的帧间约束损失、边缘平滑损失;步骤5:使用步骤4所得训练总损失训练步骤2所述无监督单目点云估计模型,得到最优的无监督单目点云估计模型,使用训练集D1

E对最优的无监督单目点云估计模型进行验证,计算深度估计指标;步骤6:准备用于3D目标检测的数据集D2,数据集包括训练集D2

T和验证集D2

E,所述训练集和验证集均包括摄影设备拍摄的多张不连续单目图像、所述图像对应的点云文件,所述点云文件为步骤2所得输入图像对应的预测点云;步骤7:使用训练集D2

T训练3D目标检测模型,得到最优3D目标检测模型,使用验证集D2

E对最优3D目标检测模型进行验证,计算3D目标检测指标。2.根据权利要求1所述的一种基于点云学习的无监督单目深度估计方法,其特征在于:所述步骤2中,所述点云解码器包含多个上采样层和输出层,所述多个输出层对应与输入图像对应的预测点云的三个维度,所述三个维度分别对应三维空间的三个维度,所述第三维度对应深度。3.根据权利要求1所述的一种基于点云学习的无监督单目深度估计方法,其特征在于:在所述步骤4中,计算训练总损失表示为:L=αL
rp
+β1L
s

pcc
+β2L
f

pcc
+γL
es
其中L是训练总损失,L
rp
是重投影损失,L
s

pcc
是预测点云的自监督约束损失,L
f

pcc
是预测点云的帧间约束损失,L
es
是边缘平滑损失,α、β1、β2、γ是超参数。4.根据权利要求1所述的一种基于点云学习的无监督单目深度估计方法,其特征在于...

【专利技术属性】
技术研发人员:邵文泽范文浩
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1