一种面向自动驾驶的结构化场景深度估计方法技术

技术编号:38322639 阅读:11 留言:0更新日期:2023-07-29 09:04
本发明专利技术属于自动驾驶技术领域,具体为一种面向自动驾驶的结构化场景深度估计方法,通过双编码器对输入的RGB图像和毫米波雷达数据,采用稀疏前置映射模块提取稀疏的毫米波雷达特征并与图像特征进行融合,得到第一融合特征图。通过四个解码器中的其中1个解码器对第一融合特征图进行解码得到语义分割图,利用语义分割图将场景分类为三个特征类别;通过另外3个深度解码器分别对第一特征融合图解码,各得到1张初始预测图;3张初始预测图与三个特征类别一一对应融合,由此实现场景中的语义信息引入。结合本发明专利技术设计的基于L1loss的改进损失函数,该函数是在L1loss的基础上,对场景中不同类别目标赋予不同权重以提高网络性能。类别目标赋予不同权重以提高网络性能。类别目标赋予不同权重以提高网络性能。

【技术实现步骤摘要】
一种面向自动驾驶的结构化场景深度估计方法


[0001]本专利技术涉及自动驾驶
,具体为一种面向自动驾驶的结构化场景深度估计方法。

技术介绍

[0002]单目深度估计是计算机视觉领域中长期存在的一个不适定问题,它利用单张RGB图像估计场景中每个点到相机的距离,在机器人、自动驾驶、三维重建等多个领域中都有着广泛应用。
[0003]传统的单目深度估计方法主要利用手工设计的特征,代表方法有运动恢复结构(SFM)和基于传统机器学习方法。运动恢复结构(SFM)是将摄像机运动作为线索进行深度估计,基于传统机器学习方法,通过使用马尔科夫随机场(MRF)或条件随机场(CRF)在图像与深度之间建立模型,学习输入特征与输出深度之间的映射关系,以获得深度估计信息。
[0004]近年来,深度神经网络快速发展,已经在图像分类、图像检测、图像分割等图像处理任务中表现出了极为优秀的性能,因此研究者们将其引入到了单目深度估计中。2014年,Eigen等人首次使用深度卷积神经网络进行单目深度估计,它以RGB图像作为输入,经由两阶段网络分别粗略预测图像全局信息和细调图像局部信息。自从深度学习被应用到单目深度估计领域后,相关方法不断改进,如搭建多尺度网络改进性能,利用编码解码结构进行深度估计,或者按照深度分层,将深度估计从回归任务转化为分类任务。上述方法的训练均依赖于场景的真实深度标签,由于逐像素标注成本高昂,因此无监督学习方法也受到广泛的关注。其通常使用成对的立体图片或图片序列进行训练,通过图像重建的损失监督网络的训练,避免了标注过程中大量人力资源的投入。
[0005]深度补全任务引入深度传感器,如激光雷达和毫米波雷达,将从深度传感器获得的粗糙深度图恢复成稠密的深度图。尽管纯视觉的深度估计方法已经可以取得较为满意的结果,利用传感器获取的额外深度信息与RGB图像信息相融合依然大幅度提高了深度估计的精度。深度补全任务关键点在于输入深度图十分稀疏且包含较大噪音,以及如何将图像与深度两个维度的信息充分融合以获得更好的结果。目前的深度补全方法利用多分支网络,使用编码器分别从稀疏深度图及其对应的RGB图像中提取特征,然后在不同层级上将特征融合,经解码器得到稠密深度图。随着深度补全技术的推进,表面法线、亲和矩阵等也被研究者们引入到网络模型之中,它们都促进了深度补全的发展。
[0006]在自动驾驶场景中,深度估计任务发挥着重要的作用。结构化场景下的深度估计具有相对标准的场景特点,但是过去的方法并未考虑到利用场景信息对深度估计预测结果进行提升,也并未充分利用场景中的语义信息,因此,有必要对现有的结构化场景深度估计方法进行改进研究,以提高深度估计的精度。

技术实现思路

[0007]本专利技术的目的在于:针对上述现有深度估计方法存在的不足,提出一种面向自动
驾驶的结构化场景深度估计方法。该方法以RGB图像和稀疏深度图作为输入,构建基于场景中的语义信息的双编码

四解码网络结构,以实现深度估计的精度提升。在构建双编码

四解码网络结构过程中,设计基于L1 loss改进的损失函数,对场景中不同类别目标,赋予不同权重以提高网络性能。
[0008]为实现上述目的,本专利技术采用如下技术方案:
[0009]一种面向自动驾驶的结构化场景深度估计方法,包括以下步骤:
[0010]步骤1、设计双编码

四解码网络
[0011]双编码

四解码网络由双编码网络和四解码网络组成;双编码网络以RGB图像和毫米波雷达数据作为输入,分别提取特征后融合,得到第一融合特征图;
[0012]四解码网络由四个解码器组成,四个解码器分别为第一解码器、第二解码器、第三解码器和第四解码器,第一解码器为分割解码器,第二解码器、第三解码器和第四解码器均为深度解码器:首先,将第一融合特征图分别输入四个解码器中,第一解码器根据第一融合特征图解码生成语义分割图,并根据语义分割图将场景划分三个特征类别,三个特征类别为道路及交通参与者特征、树木及建筑特征和天空特征三个特征类别;三个深度解码器分别对接收的第一融合特征图解码,各得到一张初始预测深度图;三张初始预测图与三个特征类别一一对应融合,获得不同场景类别下的深度图;然后再对不同场景类别下的深度图进行融合,得到预测深度图;
[0013]步骤2、设计双编码

四解码网络的损失函数
[0014]双编码

四解码网络的损失函数由四部分组成,分别是深度损失L
depth
、平滑损失L
smooth
,对稀疏前置模块生成的特征图的监督损失L
map
、对语义分割结果的监督损失L
seg
;其中,深度损失L
depth
是以L1 loss为基础,将场景中的道路及交通参与者、树木及建筑、天空分别赋予不同权重后的改进函数;
[0015]深度损失L
depth
如式(2)所示:
[0016][0017]式(2)中,d和分别表示真实深度图和预测深度图。S1表示d中属于道路及交通参与者的集合,S1表示d中不属于道路及交通参与者的集合,m为有效深度的数量,ω为需要调节的超参数;当ω取值1.4时,自动驾驶场景中各类别特征点之间平衡达到最优;
[0018]平滑损失L
smooth
如式(3)所示:
[0019][0020]式(3)中,分别表示沿x和y方向的梯度,I表示输入图像。
[0021]完整的双编码

四解码网络的损失函数如式(4)所示:
[0022]L
total
=λ1(L
depth
+λ2L
smooth
+λ3L
map
)+L
seg
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0023]式(4)中,λ1,λ2,λ3均为加权因子,根据经验设定;
[0024]步骤3、以深度标签与分割标签为真值对网络进行监督,使用步骤2得到的损失函数进行反馈来训练双编码

四解码网络;
[0025]步骤4、将待估RGB图像和毫米波雷达数据输入训练好的双编码

四解码网络,对场
景进行深度估计,得到最终的预测深度图。
[0026]进一步的,所述构建并训练双编码

四解码网络时,均采用了nuScenes数据集。
[0027]进一步的,所述双编码网络包括图像编码器和深度编码器;其中所述图像编码器为预先训练过并去除了全连接层的ResNet

34网络;所述深度编码器,包括稀疏前置映射模块和残差模块,通过稀疏前置映射模块提取毫米波雷达数据的初步特征,再采用残差模块进一步提取特征。
[0028]进一步的,所述深度解码器由4个依次连接的上采样模块组成,根据输入的第一融合特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向自动驾驶的结构化场景深度估计方法,其特征在于,包括以下步骤:步骤1、设计双编码

四解码网络双编码

四解码网络由双编码网络和四解码网络组成;双编码网络以RGB图像和毫米波雷达数据作为输入,分别提取特征后融合,得到第一融合特征图;四解码网络由四个解码器组成,四个解码器分别为第一解码器、第二解码器、第三解码器和第四解码器,第一解码器为分割解码器,第二解码器、第三解码器和第四解码器均为深度解码器:首先,将第一融合特征图分别输入四个解码器中,第一解码器根据第一融合特征图解码生成语义分割图,并根据语义分割图将场景划分三个特征类别,三个特征类别为道路及交通参与者特征、树木及建筑特征和天空特征三个特征类别;三个深度解码器分别对接收的第一融合特征图解码,各得到一张初始预测深度图;三张初始预测图与三个特征类别一一对应融合,获得不同场景类别下的深度图;然后再对不同场景类别下的深度图进行融合,得到预测深度图;步骤2、设计双编码

四解码网络的损失函数双编码

四解码网络的损失函数由四部分组成,分别是深度损失L
depth
、平滑损失L
smooth
,对稀疏前置模块生成的特征图的监督损失L
map
、对语义分割结果的监督损失L
seg
;其中,深度损失L
depth
是以L1 loss为基础,将场景中的道路及交通参与者、树木及建筑、天空分别赋予不同权重后的改进函数;深度损失L
depth
如式(2)所示:式(2)中,d和分别表示真实深度图和预测深度图,S1表示d中属于道路及交通参与者的集合,S1表示d中不属于道路及交通参与者的集合,m为有效深度的数量,ω为需要调节的超参数;当ω取值1.4时,自动驾驶场景中各类别特征点之间平衡达到最优;平滑损失L
smooth
如式(3)所示:式(3)中,分别表示沿x和y方向的梯度,I表示输入图像;...

【专利技术属性】
技术研发人员:陈浩然李曙光郑珂刘斌
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1