一种基于自适应体素聚合和多源特征的3D目标检测方法技术

技术编号：41086696 阅读：2 留言：0更新日期：2024-04-25 13:48

本发明专利技术公开了一种基于自适应体素聚合和多源特征的3D目标检测方法，针对点云数据存在分布疏密不均的现象，设计了一种在对点云体素进行聚合更新时采用了自适应调整采样半径大小的方法，使得模型在编码阶段面对疏密分布不均的点云依然能够有效的得到显性点云编码特征。此外，针对实际交通场景种，检测目标普遍存在尺度多样性和空间遮挡影响检测精度的问题，本发明专利技术提出了一种使用交叉注意力对体素，单个点云，BEV特征三种不同点云表征形式的点云信息进行融合，从而提升模型的检测精度。由于本发明专利技术在对点云体素聚合更新时采用了依据不同尺度的体素特征自适应更新采样半径，从而在出现不同点云密度时依然能够提取有效空间特征，提升检测的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动驾驶3d目标检测，特别是一种基于自适应体素聚合和多源特征的3d目标检测方法。

技术介绍

1、应用于自动驾驶环境感知中的3d目标检测技术旨在通过激光雷达、相机等传感器获取驾驶场景中周围感兴趣目标的三维坐标信息，并通过机器学习或深度学习对目标进行分类与检测。由于点云数据存在激光点分布不均匀的特性，并且检测场景中通常存在多种尺度和被遮挡的检测目标，因此如何有效的提取稠密和稀疏点云的空间特征，以及融合不同表征状态的点云数据是实现自动驾驶场景中3d目标检测任务的关键。通过在不同尺度特征中采用自适应调整采样半径的方法实现点云体素编码特征的更新，并将鸟瞰视角，体素及单个点云不同表征形式的点云信息进行融合，以此来提升检测精度。

2、现有技术首先将输入点云均匀的划分为特定数量的柱形或体素，然后分别对每个柱形或体素区域内的点云数据进行编码，最后将编码得到的特征输入到解码器中通过回归与分类得到最终的3d检测结果。例如：一种激光雷达3d目标检测方法(申请号：202310239038.3)首先将输入点云均匀的划分为柱型结构作为不同的点云柱，然后通过将不同点云柱各自的全局特征和高维特征拼接作为该点云柱的融合特征，并通过该融合特征得到点云图像的伪图像，最终通过多层感知机解码得到3d检测结果。此外，基于点柱的二阶段多注意力机制3d点云目标检测方法(申请号：202211104980.0)，首先将输入点云体素化为均匀的体素，然后对点云体素进行二阶段注意力机制处理得到对应的伪图像、并进一步使用卷积对其进行编码，最后解码得到检测结果。但是

3、1、实际交通场景中，由于点云数据存在激光点分布不均匀的现象，只依据一种尺度的点云空间特征无法有效的提取真正有效的显性特征信息，从而使得在检测场景发生点云密度变化时，3d检测模型的检测精度会发生一定的下降。

4、2、由于检测场景中的待检测物体通常会具有多种尺度，并存在空间上的遮挡现象，因此只使用单个点云柱或体素一种表征形式的激光数据不能够同时得到不同粒度的几何特征信息。

技术实现思路

1、为解决现有技术存在的上述问题，本专利技术要设计一种能在不同密度的激光点云场景下均能提取有效的点云空间特征，同时基于不同粒度的几何特征信息解决由于检测目标多尺度所引起的检测精度下降问题的基于自适应体素聚合和多源特征的3d目标检测方法。

2、为了实现上述目的，本专利技术的技术方案如下：一种基于自适应体素聚合和多源特征的3d目标检测方法，包括以下步骤：

3、步骤1.获取交通场景激光雷达点云数据，记每个激光点云p＝(x，y，z，i)，其中x、y、z分别代表检测目标的空间x、y、z坐标值，i代表反射强度。

4、步骤2.基于最远点采样方法采样得到表征当前点云输入全局信息的部分点云作为关键点。

5、步骤3.按照x、y、z三个坐标轴的裁剪范围将当前点云进行裁剪，得到感兴趣区域的点云，并将裁剪后的点云均匀的划分为特定大小的体素；

6、步骤4.逐个遍历所有体素，当体素内点云数量不为0时，计算所有点云的平均x、y、z坐标和平均反射强度作为该体素编码特征。当体素内点云数量为0时，则分别检索该体素上下左右四个相邻体素，并计算四个相邻体素编码特征的平均值作为该体素编码特征。

7、步骤5：使用四个稀疏3d卷积模块采用串联的方式以体素编码特征作为输入，分别得到四种下采样尺度的高维空间特征，四种下采样尺度分别为1倍、2倍、4倍、8倍。

8、步骤6：使用步骤5得到的不同尺度点云体素高维空间特征作为输入，输入到采样半径预测模块中，以此确定用于点云体素聚合更新操作中采样半径。

9、步骤7：针对不同尺度的点云体素编码特征，依据关键点和不同的采样半径对不同的体素编码特征进行聚合更新，实现依据点云数据分布疏密通过自适应调整采样半径来更有效的提取输入点云的复合空间特征。

10、步骤8：将8倍下采样尺度的体素特征进行高度压缩操作，即将其投影到x-y平面上，得到8倍下采样尺度的体素特征转换为鸟瞰视角编码特征。

11、步骤9：将8倍下采样尺度体素的鸟瞰视角编码特征，聚合更新后的4种不同下采样尺度的体素特征，以及输入点云的关键点信息利用交叉注意力进行融合，得到具有多种表征方式的多源混合特征。

12、步骤10：将8倍下采样尺度体素的鸟瞰视角编码特征输入到区域提议框生成模块中，得到初始3d区域提议框。

13、步骤11：将多源混合特征和初始3d区域提议框输入到由多层感知机构成的细化更新模块中，对初始3d区域提议框的几何信息进行细化更新并对其类别进行分类，得到最终的3d目标检测结果。

14、进一步地，步骤3所述x、y、z三个坐标轴的裁剪范围如下：x坐标轴的裁剪范围为-40m～40m，y坐标轴的裁剪范围为0m～70m，z坐标轴的裁剪范围为-1m～3m。

15、进一步地，步骤4所述体素编码特征计算方法如下：

16、当体素内点云数量不为0时：

17、

18、式中，vx代表该体素的重心x坐标，vy代表该体素的重心y坐标，vz代表该体素的重心z坐标，vi代表该体素的体素反射率，代表该体素内点云i的的反射率，代表该体素内点云i的x坐标，代表该体素内点云i的y坐标，代表该体素内点云i的z坐标voxelf代表体素的编码特征，n代表当前体素中激光点云的数量，concate()代表向量拼接操作。

19、当体素内点云数量为0时：

20、

21、式中，代表当前体素左边相邻体素的编码特征，代表当前体素右边相邻体素的编码特征，代表当前体素上方相邻体素的编码特征，代表当前体素下方相邻体素的编码特征。

22、进一步地，步骤5所述四种不同下采样尺度的高维特征的计算公式如下：

23、f1＝spconv(voxelf) (4)

24、f2＝spconv(spconv(voxelf)) (5)

25、f4＝spconv(spconv(spconv(voxelf))) (6)

26、f8＝spconv(spconv(spconv(spconv(voxelf)))) (7)

27、式中，f1代表下采样1倍体素特征，f2代表下采样2倍体素特征，f4代表下采样4倍体素特征，f8代表下采样8倍体素特征，spconv代表稀疏卷积操作。

28、进一步地，步骤6所述采样半径计算方法如下：

29、首先根据所有关键点的空间坐标信息，通过计算关键点和其周围不同相邻体素的空间欧式距离；然后选取空间欧式距离最短的8个相邻体素，将这8个相邻体素的编码特征输入到由softmax模块和多层感知机组成的采样半径自适应选择模块。其中sofmax模块输出维度为本文档来自技高网...

【技术保护点】

1.一种基于自适应体素聚合和多源特征的3D目标检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述一种基于自适应体素聚合和多源特征的3D目标检测方法，其特征在于：步骤3所述X、Y、Z三个坐标轴的裁剪范围如下：X坐标轴的裁剪范围为-40m～40m，Y坐标轴的裁剪范围为0m～70m，Z坐标轴的裁剪范围为-1m～3m。

3.根据权利要求1所述一种基于自适应体素聚合和多源特征的3D目标检测方法，其特征在于：步骤4所述体素编码特征计算方法如下：

4.根据权利要求1所述一种基于自适应体素聚合和多源特征的3D目标检测方法，其特征在于：步骤5所述四种不同下采样尺度的高维特征的计算公式如下：

5.根据权利要求1所述一种基于自适应体素聚合和多源特征的3D目标检测方法，其特征在于：步骤6所述采样半径计算方法如下：

6.根据权利要求1所述一种基于自适应体素聚合和多源特征的3D目标检测方法，其特征在于：步骤7所述提取输入点云的复合空间特征方法如下：

7.根据权利要求1所述一种基于自适应体素聚合和多源特征的3D目标检测方法，其特

...

【技术特征摘要】

1.一种基于自适应体素聚合和多源特征的3d目标检测方法，其特征在于：包括以下步骤：

2.根据权利要求1所述一种基于自适应体素聚合和多源特征的3d目标检测方法，其特征在于：步骤3所述x、y、z三个坐标轴的裁剪范围如下：x坐标轴的裁剪范围为-40m～40m，y坐标轴的裁剪范围为0m～70m，z坐标轴的裁剪范围为-1m～3m。

3.根据权利要求1所述一种基于自适应体素聚合和多源特征的3d目标检测方法，其特征在于：步骤4所述体素编码特征计算方法如下：

4.根据权利要求1所述一种基于自适应...

【专利技术属性】
技术研发人员：连静，于丰宁，李琳辉，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人