一种基于激光点云语义信息增强的三维目标检测方法及相关装置制造方法及图纸

技术编号:38388395 阅读:7 留言:0更新日期:2023-08-05 17:42
本发明专利技术公开了一种基于激光点云语义信息增强的三维目标检测方法及相关装置。该方法首先将三维空间划分为若干柱状体素。然后,对每个体素进行特征提取,转化为鸟瞰视角下的伪图片。接着,将伪图片送入区域建议网络进行多尺度深层次特征提取。最后,将多尺度特征图以及原始尺寸特征图分别输入三维语义分割头和三维目标检测头,得到三维语义分割和三维目标检测结果。本发明专利技术能够提升三维目标检测的精度,尤其是小目标的精度。本发明专利技术能够基本保持已有实时三维目标检测框架的速度。同时,本发明专利技术还能够输出三维语义分割结果,提供自动驾驶系统进行进一步环境感知。进行进一步环境感知。进行进一步环境感知。

【技术实现步骤摘要】
一种基于激光点云语义信息增强的三维目标检测方法及相关装置


[0001]本专利技术属于自动驾驶
,具体涉及一种基于激光点云语义信息增强的三维目标检测方法及相关装置。

技术介绍

[0002]三维目标检测在自动驾驶等领域有着广泛运用。因此,准确、快速的三维目标检测对自动驾驶系统的实时部署具有重要意义。近年来,基于激光点云的三维目标检测得益于神经网络模型的不断创新,其算法的处理精度和速度都有显著提升。但是,由于激光点云的密度随着距离的增加显著下降,同时缺乏颜色、纹理等细致的语义信息,当前的基于激光点云三维目标检测网络通常精度较低,尤其是在行人、摩托车、自行车、交通锥等小目标上难以为自动驾驶车辆提供高精度的检测结果。
[0003]当前,已有方法主要通过多模态融合的策略来大幅提升三维目标检测的精度。具体地,视觉传感器提供的彩色图像能够在三维目标检测的不同步骤为激光雷达提供补充信息,例如在激光点云输入前提供附加语义信息、在特征提取阶段利用卷积神经网络等方式融合不同模态特征图、利用基于图像的二维目标检测结果优化三维目标检测的包围框。然而,已有方法为了达到较好的精度提升,往往需要处理不同视角下的多张高分辨率图像,虽然对激光点云单一模态的处理能够满足实时要求,但是大规模的图像数据使得网络速度显著下降,导致网络整体速度难以满足自动驾驶车辆对行驶环境及时响应的速度要求。此外,图像处理网络无法与激光点云处理网络实现结构共享,需要依赖独立的网络支路进行图像特征提取,这进一步增大的网络的规模,降低了网络的速度。综上所述,采用多模态融合方式虽然在精度上为三维目标检测提供了较好的提升,但是相比基于激光点云的方法在速度方面难以满足自动驾驶系统对三维目标检测实时性的要求。

技术实现思路

[0004]为解决现有技术中存在的问题本专利技术的目的在于提出一种基于激光点云语义信息增强的三维目标检测方法及相关装置,本专利技术能够快速对三维小目标进行准确检测。
[0005]为达到上述目的,本专利技术采用如下技术方案来实现:
[0006]一种基于激光点云语义信息增强的三维目标检测方法,包括如下过程:
[0007]将三维空间划分为柱状体素;
[0008]通过已训练好的三维目标检测网络对柱状体素进行数据处理,得到检测结果;
[0009]通过已训练好的三维目标检测网络对柱状体素进行数据处理,得到检测结果的过程包括:
[0010]对每个所述柱状体素内的激光点云使用多层感知分类的方法进行特征提取,得到鸟瞰视角下的伪图片;
[0011]利用卷积神经网络对所述伪图片进行深层次特征提取同时进行下采样,再通过逆
卷积将不同分辨率的特征图上采样为原始分辨率,将上采样自不同分辨率的特征图沿通道维度拼接,得到不同频率的特征图;
[0012]利用三维语义分割头对所述不同分辨率的特征图进行处理,生成最终三维语义分割结果;
[0013]利用三维目标检测头对所述原始分辨率特征图进行处理,生成三维目标检测结果。
[0014]优选的,本专利技术基于激光点云语义信息增强的三维目标检测方法还包括对激光点云的特征进行补充的过程,该过程如下:
[0015]对每个计算激光点计算其在极坐标系下的位置,再将极坐标下的位置作为补充特征附加于激光点云,实现对激光点云的特征进行补充;
[0016]对激光点云的特征进行补充后,再将三维空间划分为柱状体素。
[0017]优选的,利用三维语义分割头对所述不同分辨率的特征图进行处理时,三维语义分割使用与三维目标检测相同的笛卡尔坐标系下划分的柱体。
[0018]优选的,所述三维语义分割采用多尺度融合的三维语义分割头,利用三维语义分割头对所述不同分辨率的特征图进行处理的过程包括:
[0019]将1/4分辨率的特征图通过一个1
×
1的卷积层,将通道数减半,再将通道数减半后的特征图利用双线性插值,将分辨率扩充到1/2分辨率,再将生成的1/2分辨率特征图与原始的1/2分辨率特征图沿通道维度进行拼接,最后利用3
×
3的卷积将拼接后的特征图进行融合;
[0020]将融合后的1/2分辨率特征图与原始尺寸特征图重复以上步骤,得到经过多尺度融合后的原始尺寸特征图。
[0021]优选的,对所述三维目标检测网络进行训练时,在鸟瞰视角下进行三维语义分割训练,该过程如下:
[0022]将三维语义分割标签根据柱状体素的尺寸进行鸟瞰视角投影,选择每个柱状体素内最多的激光点标签作为这一柱状体素的真值标签,对鸟瞰视角下的预测语义信息进行监督;
[0023]训练结束后将每个柱状体素内的全部激光点云赋予该柱状体素的语义标签。
[0024]优选的,对所述三维目标检测网络进行训练时:
[0025]得到三维目标检测结果和三维语义分割结果后,将三维目标检测的目标函数和三维语义分割的目标函数带权相加作为整体目标函数,实现三维目标检测和三维语义分割的端到端联合训练;
[0026]其中,三维目标检测采用FocalLoss和L1loss作为损失函数,三维语义分割采用CrossEntropy作为损失函数,本技术方案训练时的总体损失函数Loss定义如下:
[0027]Loss=0.25L
focal
+L1+2L
ce
[0028][0029][0030][0031]其中,L
focal
表示FocalLoss损失函数,N指关键点,i为关键点序号,pred
i
为目标类别预测值,gt
i
为目标类别真值,L1表示L1loss损失函数,M为包围框的个数,pred
n
为包围框信息预测值,gt
n
为包围框真值,n为包围框序号,L
ce
表示CrossEntropy损失函数,x为语义类别,p(x)为点云语义标签真值的概率分布,q(x)为点云语义标签预测值的概率分布,Loss为整体训练损失函数。
[0032]本专利技术还提供了一种基于激光点云语义信息增强的三维目标检测系统,该系统用于实现本专利技术如上所述的基于激光点云语义信息增强的三维目标检测方法,包括:
[0033]三维柱状体素划分单元:用于将三维空间划分为柱状体素;
[0034]计算单元:用于通过已训练好的三维目标检测网络对柱状体素进行数据处理,得到检测结果;
[0035]通过已训练好的三维目标检测网络对柱状体素进行数据处理,得到检测结果的过程包括:
[0036]对每个所述柱状体素内的激光点云使用多层感知分类的方法进行特征提取,得到鸟瞰视角下的伪图片;
[0037]利用卷积神经网络对所述伪图片进行深层次特征提取同时进行下采样,再通过逆卷积将不同分辨率的特征图上采样为原始分辨率,将上采样自不同分辨率的特征图沿通道维度拼接,得到不同频率的特征图;
[0038]利用三维语义分割头对所述不同分辨率的特征图进行处理,生成最终三本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于激光点云语义信息增强的三维目标检测方法,其特征在于,包括如下过程:将三维空间划分为柱状体素;通过已训练好的三维目标检测网络对柱状体素进行数据处理,得到检测结果;通过已训练好的三维目标检测网络对柱状体素进行数据处理,得到检测结果的过程包括:对每个所述柱状体素内的激光点云使用多层感知分类的方法进行特征提取,得到鸟瞰视角下的伪图片;利用卷积神经网络对所述伪图片进行深层次特征提取同时进行下采样,再通过逆卷积将不同分辨率的特征图上采样为原始分辨率,将上采样自不同分辨率的特征图沿通道维度拼接,得到不同频率的特征图;利用三维语义分割头对所述不同分辨率的特征图进行处理,生成最终三维语义分割结果;利用三维目标检测头对所述原始分辨率特征图进行处理,生成三维目标检测结果。2.根据权利要求1所述的一种基于激光点云语义信息增强的三维目标检测方法,其特征在于,还包括对激光点云的特征进行补充的过程,该过程如下:对每个计算激光点计算其在极坐标系下的位置,再将极坐标下的位置作为补充特征附加于激光点云,实现对激光点云的特征进行补充;对激光点云的特征进行补充后,再将三维空间划分为柱状体素。3.根据权利要求1所述的一种基于激光点云语义信息增强的三维目标检测方法,其特征在于,利用三维语义分割头对所述不同分辨率的特征图进行处理时,三维语义分割使用与三维目标检测相同的笛卡尔坐标系下划分的柱体。4.根据权利要求1所述的一种基于激光点云语义信息增强的三维目标检测方法,其特征在于,所述三维语义分割采用多尺度融合的三维语义分割头,利用三维语义分割头对所述不同分辨率的特征图进行处理的过程包括:将1/4分辨率的特征图通过一个1
×
1的卷积层,将通道数减半,再将通道数减半后的特征图利用双线性插值,将分辨率扩充到1/2分辨率,再将生成的1/2分辨率特征图与原始的1/2分辨率特征图沿通道维度进行拼接,最后利用3
×
3的卷积将拼接后的特征图进行融合;将融合后的1/2分辨率特征图与原始尺寸特征图重复以上步骤,得到经过多尺度融合后的原始尺寸特征图。5.根据权利要求1所述的一种基于激光点云语义信息增强的三维目标检测方法,其特征在于,对所述三维目标检测网络进行训练时,在鸟瞰视角下进行三维语义分割训练,该过程如下:将三维语义分割标签根据柱状体素的尺寸进行鸟瞰视角投影,选择每个柱状体素内最多的激光点标签作为这一柱状体素的真值标签,对鸟瞰视角下的预测语义信息进行监督;训练结束后将每个柱状体素内的全部激光点云赋予该柱状体素的语义标签。6.根据权利要求1所述的一种基于激光点云语义信息增强的三维目标检测方法,其特征在于,对所述三维目标检测网络进行...

【专利技术属性】
技术研发人员:张旭翀孙宏滨张敬敏闵崇贾轶杰
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1