当前位置: 首页 > 专利查询>江苏大学专利>正文

一种高效的无锚框3-D目标检测及跟踪方法及模型技术

技术编号:39140758 阅读:10 留言:0更新日期:2023-10-23 14:54
本发明专利技术公开了一种高效的无锚框3

【技术实现步骤摘要】
一种高效的无锚框3

D目标检测及跟踪方法及模型


[0001]本专利技术属于智能自动驾驶汽车环境感知
,特别设计了一种高效的无锚框3

D目标检测级跟踪方法及模型。

技术介绍

[0002]环境感知是智能汽车安全行驶的前提条件。由于激光雷达能够提供准确的深度信息,因而常被认为是自动驾驶汽车不可或缺的传感器之一。随着深度学习技术对于点云表征学习上的成功应用,LiDAR

based的3

D目标检测最近取得了重大突破。
[0003]Lidar

based的3D目标检测算法致力于从给定点云中预测目标的3D候选框。大致可以分为两大类:point

based和grid

based方法。受到具有开创性的点云处理算法PointNet的启发,point

based方法直接处理不规则点云并且预测3D边界框。PointRCNN提出一种point

based的直接从原始点云中生成候选框的范式,然后通过设计一个ROI pooling操作去修正每一个候选框。STD将每个候选框内的点特征转换为紧密的voxel表示,为了进行ROI特征提取。3DSSD在set abstraction操作里面,在现有的D

FPS基础上引入F

FPS,同时促进了最终的回归和分类。这些point

based方法自然的保存了准确的点位置,并且由于采用radius

based的局部特征聚集而具有灵活的感受野。这些方法耗费了90%的推理时间在组织不规则点云数据,而不是进行特征提取,因此不适合于处理大尺度点云。目前大部分现有的方法将稀疏和不规则的点云数据离散为规则的网格,包括3D voxels和2D pillar。然后使用2D/3D CNN进行3D目标检测。具有开创性的VoxelNet将点云划分为3D体素,使用3D卷积进行特征提取。为了处理大户外场景下的空体素,SECOND引入了3D稀疏卷积来加速VoxelNet,并且提升了检测精度。直到现在,基于Voxel的方法仍统治了大多数的3D检测benchmarks。PointPillars在平面上进行2D体素化,并且采用PointNet作为pillar特征提取器。它能够使用2D卷积并且以有限的成本部署在嵌入式系统上。MVF在将原始点云投影为2

D伪图像之前,采用multi

view特征来增强point

wise信息。HVNet在point

wise层级上融合不同尺度的pillar特征,实现了良好的检测精度和推理速度。HVPR巧妙地保持了pillar

based检测的效率,而采用voxel

based的特征提取机制,实现了更好的检测效果。PillarNet采用2

D稀疏卷积构建了更加强大的pillar特征提取器,实现了与voxel

based方法相当的检测效果。
[0004]对于一些较简单的交通场景和常见的交通参与者,LiDAR

based的3

D目标检测算法往往能够取得优异的检测效果。然而,高级别自动驾驶对于LiDAR

based的3

D检测算法提出了更高的要求,即聚焦复杂交通场景的corner case以及提升长尾目标的检测精度等。这就要求LiDAR

based的3

D检测算法能够更加的高效,能够在large

scale数据集上有稳定的检测性能表现。
[0005]然而,目前在large

scale数据集(如nuScenes,Waymo)上展现top

performing的点云3

D检测器,通常都会设计一个相当复杂的二阶段去进行候选框的修正,这无疑会耗费大量算力和内存。因此,3

D检测算法的网络设计应该尽可能的去平衡检测速度和检测精
度。此外,目前现有的LiDAR

based的3

D目标检测算法主要使用grid

based的表征方式,大体上可以分为两大类,即3

D voxel

based和2

D pillar

based方法。Voxel

based方法的主要特点是将输入点云划分为规则的3

D体素网格,然后使用3

D稀疏卷积搭建的特征提取器进行点云特征提取。由3

D稀疏卷积构成的主干可以有效地进行特征提取。但是3

D稀疏卷积引入了过多的计算量,并且3

D主干提取的特征难以被Neck在BEV空间下进行利用。而对于pillar

based的方法,采用轻量化的pillar特征编码使其在工业界得到了广泛的应用,但这也使得其检测性能与Voxel

based方法存在较大的差距。
[0006]由于LiDAR自身特性,点云数据存在不可避免的稀疏性。这就要求3

D检测网络的设计应该尽量避免在特征提取和特征融合过程中的特征丢失,否则对于小目标或者远距离目标的漏检非常严重。在图像领域,transformer这种encoder

decoder结构已经成为2

D检测和分割任务中非常具有竞争力的方法。Transformer结构能够捕捉不同特征域之间的远距离上下文信息。自然地,引入transfomer结构到LiDAR

based的3

D检测算法中成为提升点云感知的一个突破口。然而,transfomer结构带来的计算量会随着输入量的增加而显著提升,因而如何在不引入过多计算量的前提下发挥transformer对点云的感知性能就尤为关键。
[0007]在多目标跟踪算法中,很多3D MOT方法由手工设计的基于规则的模块组成。AB3DMOT是一个常见的baseline,采用IOU进行数据关联和卡尔曼滤波作为运动模型。很多后来的研究主要集中于改进数据关联部分:Chi et al.和CenterPoint分别采用马氏距离和L2距离替代IOU,在nuScenes数据集上表现的更好。SimpleTrack为了弥补IoU

based和distance

based两类关联指标各自存在的不足,于是引入GIOU作为关联指标,取得了不错的关联效果。一些其他的研究集中于轨迹管理策略:CBMOT提出一种“confidence本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高效的无锚框3

D目标检测及跟踪方法,其特征在于,包括:Step 1点云数据预处理;Step 2基于dynamic pilla设计动态特征编码器;Step 3基于2D稀疏卷积设计Pillar特征提取器;Step 4对pillar特征提取器输出的特征进行空间语义融合,设计颈部网络;Step 5基于Transformer设计检测头;Step6模型训练及设置损失函数;Step 7 3D目标跟踪。2.根据权利要求1所述的一种高效的无锚框3

D目标检测及跟踪方法,其特征在于,所述S1具体包括如下:首先准备好用于模型训练的带标注的数据集并建立真值样本数据库,在模型训练时,使用不同的数据增强方法对点云数据进行处理,所述数据增强方法包括:(1)真值采样:从真值样本数据库中分别为每个类别目标选取若干个真值样本,然后无需其他转换,直接放入到准备用于训练的点云中去;(2)随机反转操作:将点云沿着激光雷达坐标系的X轴和Y轴进行随机翻转,反转角度范围设置为U(

π/4,π/4);(3)随机全局缩放:将点云在U(0.95,1.05)范围内进行随机全局缩放。3.根据权利要求1所述的一种高效的无锚框3

D目标检测及跟踪方法,其特征在于,所述S2具体包括如下:定义F
PR
(p
i
)作为点云的分配点p
i
到点所在的pillarpr
j
之间的映射,并且定义F
P
(pr
j
)作为聚集一个pillarpr
j
内点集的映射,Hard pillar总结为:pillar总结为:采用unique

scatter paradigm实现动态pillar编码,允许2D伪鸟瞰图到每个点的梯度反向传播,pillar的数量和单个pillar内点的数量都是动态的,动态pillar编码消除了固定尺寸buffer的需要以及消除了点和pillar的随机dropout,该point

pillar映射关系可以用公式表示为:可以用公式表示为:此外,将稀疏的pillar点云特征转换为稀疏张量表示,以便后续的pillar点云特征提取器进行处理。4.根据权利要求1所述的一种高效的无锚框3

D目标检测及跟踪方法,其特征在于,所述S3具体包括如下:使用2D稀疏卷积构建Pillar点云特征提取器,Pillar点云特征提取器包括稀疏主干和2D卷积主干,其中稀疏主干包括四个stage,每个stage的特征通道数分别为32、64、128、256,除stage 1只由两个残差稀疏块组成,剩余的三个stage都首先使用稀疏卷积进行点云
特征提取和下采样,再使用残差稀疏块进行特征提取,然后依次经过四个stage提取到的点云特征进行dense处理,得到OUT1输出;其中残差稀疏块包括子流形稀疏卷积、BatchNorm、Relu以及残差结构,为了扩大对大目标的感受野,增加额外的一个由dense 2D CNN组成的stage,使用2D卷积进行点云特征下采样,紧接着由两个basicblock进行点云特征提取,得到OUT2输出。5.根据权利要求1所述的一种高效的无锚框3

D目标检测及跟踪方法,其特征在于,所述S4的颈部网络包括自校正卷积模块和ECANet注意力机制模块,自校正卷积专注到感兴趣的前景特征,ECANet可以捕捉更加fine

grained特征;所述自校正卷积模块,将特定层的卷积核分为多个部分,不均匀地将每个部分中的卷积核以异构方式被利用,具体而言,自校正卷积首先通过下采样将输入点云特征转换为低维嵌入,采用由一个卷积核变换的低维嵌入来校准另一部分中卷积核的卷积变换,利用自校正卷积内包含的注意力机制,可以更加关注待检测目标的点云特征提取;ECANet注意力机制模块,具体的过程是:(i)首先输入点云特征图,它的维度是H
×
W
×
C;(ii)对输入特征图进行空间特征压缩,在空间维度,使用全局平均池化GAP,得到1
×1×
C的特征图;(iii)将压缩后的特征图通过1
×
1卷积,学习不同通道之间的重要性,此时输出的维度还是1
×1×
C;(iv)最后是通道注意力结合,将通道注意力的特征图1
×1×
C、原始输入特征图H
×
W
×
C,进行逐通道乘,最终输出具有通道注意力的点云特征图;ECANet的kernel是通过自适应选取得到,对于处理点云的稀疏性非常高效,对于OUT1和OUT2之间的点云特征融合,首先将OUT2提取后的点云特征和OUT1进行concat处理,然后继续使用自校正卷积进一步融合。6.根据权利要求1所述的一种高效的无锚框3

D目标检测及跟踪方法,其特征在于,所述S5的检测头的结构包括Query initialization部分、Transformer解码器部分和FFN部分;所述Query initialization部分,给定一个d维LiDAR BEV点云特征图F
L
∈R
X
×
Y
×
d
,首先预测一个类别特定的热力图其中X
×
Y为BEV特征图的尺寸,K为类别数,然后将X
×
Y
×
K个候选目标作为初始的object queries;为了避免太近的query,选择局部峰值作为object queries,其值大于或者等于8个邻近值,被选取的候选者对应的位置和特征被用于初始化query位置和query features,初始object queries将位于或者靠近潜在的目标中心,消除使用更多层解码器层修正位置的需要;考虑在3D点云场景中,位于BEV平面中目标是绝对尺度的,并且同类型目标之间的尺度变化很小,为了更好的利用该特性用于多类别检测,通过增加类别embedding,使得object queries变得category

aware,利用每个被挑选的候选者的类别,将query feature与category embedding进行element

wise相加,其中category embedding是one

hot类别矢量的线性投影,Category e...

【专利技术属性】
技术研发人员:王海张桂荣彭一明蔡英凤陈龙李祎承刘擎超
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1