当前位置: 首页 > 专利查询>浙江大学专利>正文

一种类别引导中心点邻域搜索半径的三维目标检测方法技术

技术编号:38272005 阅读:10 留言:0更新日期:2023-07-27 10:25
本发明专利技术公开了一种类别引导中心点邻域搜索半径的3D目标检测方法,包括如下:(1)激光雷达点云不改变点云的结构,在数据预处理阶段,需将不同场景采集的点云均降采样到一个固定数值N,作为神经网络的输入;(2)建立神经网络结构,利用已知的目标检测数据集对神经网络结构进行训练,设置总的损失函数对神经网络输出进行监督,获取完成训练的神经网络结构参数;(3)将自动驾驶场景下激光雷达采集的点云输入到训练完成的神经网络结构中,输出神经网络的类别信息和3D预测框的回归残差,根据当前场景的分类结果和回归残差进行3D预测框的计算,获取最终的预测结果。本发明专利技术方法可为自动驾驶真实场景下的3D目标检测提供解决方案。实场景下的3D目标检测提供解决方案。实场景下的3D目标检测提供解决方案。

【技术实现步骤摘要】
一种类别引导中心点邻域搜索半径的三维目标检测方法


[0001]本专利技术属于自动驾驶感知
,涉及一种基于激光雷达点云的三维目标检测方法,特别是涉及一种类别引导中心点邻域搜索半径的三维目标检测方法。

技术介绍

[0002]为了全面了解驾驶环境,自动驾驶的感知系统涉及到许多基础视觉任务,例如目标检测和跟踪、车道线检测、语义和实例分割等。在这些感知任务中,3D目标检测是车辆感知系统中最不可或缺的任务。3D目标检测旨在预测3D空间中关键目标的位置、大小、朝向和类别,其中类别包括机动车辆、行人、骑自行车的人等。与仅在图像上生成2D边界框而忽略关键目标与当前车辆的实际距离信息的2D目标检测相比,3D目标检测则更侧重于对真实世界3D坐标系中目标的定位和识别。3D目标检测在现实世界坐标中预测的几何信息可以直接用于测量本车与关键目标之间的距离,并进一步帮助规划行驶路线和避免碰撞。
[0003]其中,根据激光雷达点云在3D目标检测方法中的表现形式和对应的特征提取网络可以分为基于体素、基于支柱、基于视图、基于点四种类型。
[0004]体素可以类比二维图像中的像素,是一种3D空间中规则的有序的数据表示形式。基于体素的方法首先将不规则点云根据坐标转换为紧凑形状的体素,以便通过3D卷积神经网络有效地提取用于3D目标检测的网格特征,接着将3D特征图沿着高度这一维度重塑为鸟瞰图视角下的2D特征,复用2D目标检测领域的区域候选网络来生成最终的3D检测框。VoxelNet是首个利用体素来完成3D目标检测任务的网络,它引入了体素特征提取VFE(Voxel Feature Extraction)的概念,可以从单个体素内中的点捕获3D形状信息,完成对初始体素特征向量的编码。但是由于3D卷积神经网络的计算效率问题导致其在实时性方面表现较差。SECOND在此基础上提出了一个更加高效的主干网络,利用3D稀疏卷积(3DSparse Convolution)算子来仅对有效的、非空的体素进行特征提取,极大地提升了网络的推理速度。除了卷积算子外,SST利用自注意力机制网络对体素进行特征提取,主要的动机在于体素在经过卷积神经网络后,特征图相较于输入会出现分辨率下降的问题,而关键目标在低分辨率特征图对应的特征非常少,造成误检,注意力机制的优势在于特征提取过程中分辨率保持不变,可以更好地提升网络的检测精度,但注意力机制计算复杂度高,导致实时性差。
[0005]与体素的表示形式类似,基于支柱的表示忽略了沿着高度这一维度的划分,并将3D空间划分为固定大小的支柱。直观地,支柱可以被视为高度的未划分的体素,因此基于支柱的点云表示可以被视为多通道的鸟瞰图视角伪图像。最具代表性的基于支柱的特征提取模块由PointPillars提出。首先将点云根据坐标划分为多个支柱,并确定每个支柱的最大点数,不足补零,超过则采样。支柱内的每个点由一个9维矢量编码,该矢量由其原始位置、反射强度、距支柱中心以及距支柱形心坐标(支柱内所有点的算术平均值)的偏移距离组成,支柱的特征通过微型的PointNet来提取。特征提取主干网络是由2D卷积操作组成,相比于体素的3D卷积操作,可以极大地提高推理效率,同时便于部署,也是工业界常采用的感知
算法框架之一。
[0006]在基于投影的表示中,3D空间中的点在透视变换下投影到2D平面。距离视图投影是点云投影到球形表面,其原点位于激光雷达传感器上。
[0007]给定具有三维坐标[x
i
,y
i
,z
i
]的点,其球坐标表示[φ
i

i
,d
i
]计算如公式(1

1)所示。
[0008][0009]Range RCNN是基于视图的代表性网络。首先,激光雷达点云被投影到距离视图,每个像素由5维向量(x,y,z,d,r)编码,其中(x,y,z)是点坐标,r是点的反射强度,d是点到激光雷达传感器的距离。特征提取主干网络采用2D卷积操作学习像素特征。为了解决距离视图中对象的遮挡和比例变化问题,实现了一个距离视图

>点

>鸟瞰图模块,用于将特征从距离视图像素传输到3D空间的点,然后从3D空间的点传输到鸟瞰图特征图。
[0010]基于点的表示形式保留了点云的非结构化形式。但是,为了高效的并行计算,需要降采样到固定大小。基于点的3D目标检测方法常采用随机采样和最远点采样两种采用算法,将点云从原始大小多次降采样为较小的固定大小N个点来实现。在随机采样中,随机选取点,直到选取N个点。然而,这种采样方法的缺点是相比于点云稀疏的区域,点云稠密的区域的点更容易被采样。最远点采样算法通过迭代过程根据最远距离标准采样点,从而减轻这种偏差。与随机采样的点云相比,最远点采样算法采样的结果是更具代表性的点云,但也导致计算成本增加。生成的子采样点云的每个点都使用相同的特征进行编码。而对于3D目标检测任务,目标3D真值框内的前景点更具价值,所以之后也发展出将点在神经网络中产生的语义特征代替欧式距离的最远点采样算法的变种,或者利用语义类别信息来监督降采样过程,这些设计的目的都是为了让更多的前景点在降采样的过程中尽可能更多地保留下来。然而在网络进行多类别目标检测时候,为了照顾尺寸大的关键目标,中心点邻域搜索半径通常设置为较大的、统一的值,这样会让尺寸小的目标聚合到大量背景点的信息,造成误检。在同一个网络中实现多类别的3D目标检测也是自动驾驶场景下对感知系统最基本的要求。

技术实现思路

[0011]本专利技术的目的在于针对现有技术的不足,提供一种类别引导中心点邻域搜索半径的三维目标检测方法,通过利用特征提取主干网络中保留下的点在神经网络中丰富的语义特征,推断中心点的类别信息,来控制中心点邻域搜索半径的生成,实现3D目标检测网络多类别检测的精度平衡,为自动驾驶真实场景下的3D目标检测提供解决方案。
[0012]本专利技术提出的类别引导中心点邻域搜索半径的3D目标检测方法,基于点的表现形式,不改变点云的原始结构,最大程度上保留点云的3D几何信息。同时,为了解决点云在降采样过程中计算耗时的问题,此方法利用点云在神经网络中丰富的特征来推测点的前/背景分类结果,每次选取前景点置信度高的点保留到下一阶段,一方面加速了采样过程,避免了大量的距离计算问题,另一方面能够让更多有效的前景点在降采样中得以保留,保证了算法的检测精度。为了实现多类目标检测的精度平衡性,类别引导的中心点邻域搜索半径生成模块针对尺寸不同的类别设置了不同大小的邻域搜索半径,让小目标更加专注自身点云的特征,排除背景点的干扰,提升小目标的检测精度。基于通道级注意力机制的中心点特征聚合模块不仅考虑不同邻居节点还考虑了节点特征不同通道对中心点的贡献程度不同,
充分挖掘邻居节点的几何特征,形成更加细粒度的实例级特征。点锚框机制平衡了正负样本的数量,并很大程度上缓解了目标朝向难以预测的问题,提升了网络的检测召回率。此方法满足实时性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,包括如下:(1)激光雷达点云基于点的表现形式,不改变点云的结构,最大程度保留点云原始的3D几何信息;在数据预处理阶段,需将不同场景采集的点云均降采样到一个固定数值N,作为神经网络的输入;(2)建立神经网络结构,利用已知的目标检测数据集对神经网络结构进行训练,设置总的损失函数对神经网络输出进行监督,获取完成训练的神经网络结构参数;(3)将自动驾驶场景下激光雷达采集的点云输入到训练完成的神经网络结构中,输出神经网络的类别信息和3D预测框回归残差,根据当前场景的分类结果和回归残差进行3D预测框的计算,获取最终的预测结果。2.根据权利要求1所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述步骤(2)中所建立的神经网络结构,包括如下:基于点的特征提取主干网络、中心点生成模块、中心点邻域搜索半径生成模块、基于通道级注意力机制的中心点特征聚合模块和基于点锚框机制的检测头模块;点云的原始特征输入到基于点的特征提取主干网络中,进行特征提取,中心点生成模块和中心点邻域搜索半径生成模块并行在后,为后面基于通道级注意力机制的中心点特征聚合模块提供中心点3D坐标和中心点类别信息,基于通道级注意力机制的中心点特征聚合模块得到最终的中心点实例级特征向量,基于点锚框机制的检测头模块与所述中心点特征聚合模块相连,对最终的中心点实例级特征向量进行预测分类,作为神经网络的输出。3.根据权利要求1所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述基于点的特征提取主干网络包含四个降采样

特征聚合块首尾相连组成,前两个块中的降采样策略采用最远点采样算法,后两个块中的采样策略利用语义信息引导,特征聚合块操作保持一致。4.根据权利要求3所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,输入点云为N个点,首先经过第一个降采样模块,最远点采样算法后,N1个点保留下来,然后完成特征聚合,具体来说,首先给N1个点设置统一的邻域搜索半径,搜索范围为初始点云的N个点,搜索方式为球形搜索,根据是否为邻居节点完成分组过程,于是保留下的N1个点均有n1个邻居节点,获得N1个分组;对于每个分组,需要完成特征聚合,首先将邻居节点特征输入多层感知机网络进行升级维度操作,为了保留明显的特征,在点维度进行最大池化操作,获取当前点的特征;为了获取不同层次的特征,邻域搜索过程进行两次,两次邻域搜索的半径不同,两次分组得到的不同层次特征再次输入多层感知机网络,完成特征融合;N1个点及其特征作为第二个降采样块的输入,和前一个块保持一致,首先需要进行最远点采样算法,得到保留下的N2个点,经过两次邻域搜索的分组过程完成特征汇合;此时保留下的点特征已经具备丰富的语义信息,于是利用语义信息监督降采样的过程,具体来说,将两个多层感知机层附加到编码层以进一步判断每个点的语义类别,其中,真值框内的点云被标记为前景点,当作点云的标签信息用来监督训练过程,N2个点及其特征作为第三个降采样块的输入,取前景点置信度最高的N3个点保留下来,经过两次邻域搜索分组完成特征汇合;N3个点以及特征作为第四个降采样块的输入,前景点置信度最高的N4个点得以保留,经过两次邻域搜索分组完成特征汇合,完成特征提取。5.根据权利要求4所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在
于,所述中心点生成模块通过显式预测前景点到目标正中心的偏移量来完成预测,N4个点以及特征作为此模块的输入,经过两个多层感知机网络得到偏移量的输出,偏移量加上前景点坐标得到最终的目标中心坐标的预测值。6.根据权利要求4所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述中心点邻域搜索半径生成模块通过预测前景点的类别信息来完成中心点类别的推断,N4个点以及特征作为此模块的输入,经过两个多层感知机网络来得到类别信息预测信息。7.根据权利要求4所述的类别引导中心点邻域搜索半径的3D目标检测方法,其特征在于,所述基于通道级注意力机制的中心点特征聚合模块的输入为中心点坐标的预测值、中心点的类别信息、N3个点以及其特征,首先根据N4个中心点的坐标以及类别对应的邻域搜索半...

【专利技术属性】
技术研发人员:项志宇华明张志远
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1