基于时序融合的制造技术

技术编号:39575155 阅读:5 留言:0更新日期:2023-12-03 19:27
本公开提供了一种基于时序融合的

【技术实现步骤摘要】
基于时序融合的3D目标检测方法、电子设备及存储介质


[0001]本公开涉及自动驾驶和计算机视觉
,本公开尤其涉及一种基于时序融合的
3D
目标检测方法

装置

电子设备及存储介质


技术介绍

[0002]环视车载摄像头在自动驾驶汽车上广泛装备,其中使用图像数据提取
BEV(Bird'sEye View)
特征即鸟瞰视角特征,进行
3D
目标检测,已成为自动驾驶感知模块中障碍物检测的主流

[0003]由于使用单帧图像数据的
BEV
特征的检测效果有限,所以当前障碍物
3D
目标检测正转向多模态和时序融合

[0004]目前基于
BEV
特征的时序融合方法有以下划分方式:
[0005]一,根据融合特征的阶段不同,可分为基于图像特征和
BEV
特征融合两种

[0006]二,按照融合特征的稀疏性,又可分为稠密的
BEV
融合和稀疏的
BEV query
融合两种方案,两者各有优势,前者根据不同帧之间的自车坐标,将前序帧
(
也即历史帧
)BEV
特征与当前帧
BEV
特征对齐后融合;后者则基于
Transformer
预测障碍物,其首先进行运动估计,对前序帧的
query
特征扩散传播,以提升高置信度检测目标在当前帧的检测准确度

[0007]然而,当前基于
CNN
网络的
BEV
特征时序融合方式仍以稠密融合为主,代表工作有
BEVDet4D

SOLOFusion
,稠密融合需要保留需要融合的
N
个时刻前序帧的
BEV
特征,并通过坐标系转换获取当前采样点在前序帧的位置,提取对应特征进行融合

此方法保留了大量的无用
BEV
特征,存在以下缺点:
1)
占用大量显存,同时增加无用特征的计算负担
。2)
时序融合阶段只消除了自车运动影响,没有考虑障碍物运动导致的特征失配问题

[0008]因此,从细粒度角度进行
BEV
特征的时序融合具有重要的研究前景和价值

其能有效地缓解以上两点不足,通过只保留前序帧的预测结果和对应
BEV
特征,能减少显存占用;之后通过直接在目标
BEV
特征上预测运动方向和位移,能更有效地进行
BEV
特征的时序融合

[0009]对现有的一些技术方案进行介绍:
[0010]BEVDet4D
属于基于
CNN

BEV
特征融合方式,其在
BEVDet3D
的工作上发展而来,先将前序帧经过时空对齐,在
channel
维度拼接,再送入
bev encoder
进行融合


PETR v2
属于基于
Transformer
的图像特征融合方式,通过变换前序帧
(
从前3‑
27
帧中随机选取的一帧
)
外参的方式,将前序帧的相机视角变成当前帧的虚拟视角,以获取前序帧在当前帧的
3D
位置编码

[0011]其中
BEVFormer
,则通过
Transformer
将图像特征转换
BEV
平面上,然后根据不同帧自车坐标,将之前帧的
BEV
特征与当前帧进行对齐,简单地对时序上的
BEV
特征进行注意力融合;但是,其只存储一帧
BEV
特征无法保留时间间隔较长的信息,所以
BEVFormer v2
中,通过增加时间间隔和之前帧
BEV
特征的数量的方式,保留更长时间的特征,之后直接将前多帧
BEV
特征与当前
BEV
特征进行拼接,融合时序特征

[0012]2023
年新发表的
StreamPETR
利用
Transformer
提取特征具有稀疏性特点,其舍弃了之前直接存储之前帧
BEV
特征的方式,而先提取图像的
2D
目标,并使用
2D
标签进行监督,对后续的
BEV
特征进行初始化,并结合之前帧的部分
3D
目标预测结果,在空间对齐操作后,作为当前
BEV 3D
目标检测的
query
,实现
query
层面的时序融合

[0013]此外,其他工作,如
BEVStereo
从相邻帧构建立体视觉,对深度预测进行矫正,计算双目深度估计损失,以获得更准确的
3D
特征,也属于一种特殊的
BEV
特征的时序融合方式

[0014]关于现有的基于
BEV
特征时序融合的
3D
目标检测的技术方案分析如下:
[0015]在自动驾驶领域,可直接用于
3D
目标检测的传感器数据主要有车载相机图像数据

激光点云数据

雷达点云数据,这些数据具有天然的时序特点

[0016]目前,基于
CNN
网络的
BEV
特征时序融合在
1)
融合的特征粒度和
2)
历史特征的保留方式上仍存在缺陷和不足

[0017]1)
融合的特征粒度:
BEV
特征对齐采样保留了大量的无关特征,其将当前
BEV gird
坐标通过坐标转换重投影到前序帧,进行前序帧
BEV
特征采样,然后对
BEV
特征进行融合,存在大量无效的存储和计算操作

而且,此种对齐方式只消除了自车运动的误差,忽略了障碍物自身运动的影响

因此,明确地估计运动物体的位移,在理论上能有效的消除特征的适配问题,能提升
BEV
特征的时序融合效果

[0018]2)
历史特征保留:基于
Transformer
模型,采用迭代更新
query
的方式,而基于
CNN

BEV
特征提取方式,一般采用直接保留时间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于时序融合的
3D
目标检测方法,其特征在于,包括:获取当前帧二维图像数据;对所述当前帧二维图像数据进行
3D
目标检测,以获得当前帧第一阶段
3D
目标检测信息;基于前序帧
3D
目标检测信息和当前帧第一阶段
3D
目标检测信息获得当前帧中历史
3D
目标运动位移;以及基于所述历史
3D
目标运动位移判断前序帧
3D
目标检测信息和当前帧第一阶段
3D
目标检测信息的匹配程度以融合当前帧第一阶段
3D
目标检测信息和前序帧
3D
目标检测信息以获得当前帧第二阶段
3D
目标检测信息作为时序融合后的当前帧
3D
目标检测信息
。2.
根据权利要求1所述的基于时序融合的
3D
目标检测方法,其特征在于,还包括:获取当前帧本车坐标系位姿至前序帧本车坐标系位姿的第一变换矩阵;其中,所述当前帧中历史
3D
目标运动位移基于前序帧和当前帧的帧间时间差及所述第一变换矩阵获得
。3.
根据权利要求2所述的基于时序融合的
3D
目标检测方法,其特征在于,所述当前帧第一阶段
3D
目标检测信息包括:当前帧第一阶段
3D
目标检测框集合和各个当前帧第一阶段
3D
目标检测框对应的
BEV
特征;所述前序帧
3D
目标检测信息包括:前序帧
3D
目标检测框集合及其对应的
BEV
特征;其中,基于前序帧和当前帧的帧间时间差及所述第一变换矩阵获得所述当前帧中历史
3D
目标运动位移,包括:对前序帧
3D
目标检测框对应的历史
3D
目标位置进行基于帧间时间差的运动位移预测,以获得当前帧时刻的历史
3D
目标预测位置;以及基于所述第一变换矩阵将所述历史
3D
目标预测位置转换至当前帧,以获得当前帧中历史
3D
目标预测位置即获得当前帧中历史
3D
目标运动位移
。4.
根据权利要求3所述的基于时序融合的
3D
目标检测方法,其特征在于,基于所述历史
3D
目标运动位移判断前序帧
3D
目标检测信息和当前帧
3D
目标检测信息的匹配程度,以融合当前帧第一阶段
3D
目标检测信息和前序帧
3D
目标检测信息以获得当前帧第二阶段
3D
目标检测信息作为时序融合后的当前帧
3D
目标检测信息,包括:基于当前帧第一阶段
3D
目标检测框的预测类别和所述当前帧中历史
3D
目标预测位置获取所述当前帧中历史
3D
目标预测位置的空间邻域内与所述当前帧第一阶段
3D
目标检测框匹配的前序帧
3D
目标检测框匹配集合及其对应的
BEV
特征匹配集合;以及将所述
BEV
特征匹配集合中的最匹配
BEV
特征与所述当前帧第一阶段
3D
目标检测框对应的
BEV
特征进行特征融合获得
BEV
融合特征,基于所述
BEV
融合特征获得当前帧第二阶段
3D
目标检测框集合及其对应的
BEV
特征,作为当前帧
3D
目标检测信息
。5.
根据权利要求4所述的基于时序融合的
3D
目标检测方法,其特征在于,将所述
BEV
特征匹配集合中的最匹配
BEV
特征与所述当前帧第一阶段
3D
目标检测框对应的
BEV
特征进行特征融合获得
BEV
融合特征,包括:基于神经网络模型将所述
BEV
特征匹配集合中的最匹配
BEV
特征与所述当前帧第一阶段
3D
目标检测框对应的
BEV
特征进行融合
。6.
根据权利要求1至5中任一项所述的基于时序融合的
3D
目标检测方法,其特征在于,
还包括:基于所述当前帧
3D
目标检测信息及所述前序帧
3D
目标检测信息中的
3D
目标检测框的置信度对所述前序帧
3D
目标检测信息进行更新以获得更新的前序帧
3D
目标检测信息以用于下一帧...

【专利技术属性】
技术研发人员:肖华辉陈佳李雪
申请(专利权)人:北京易航远智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1