基于Transformer的多传感器融合目标检测方法技术

技术编号:36691702 阅读:13 留言:0更新日期:2023-02-27 19:59
本发明专利技术公开了一种基于Transformer的多传感器融合目标检测方法,包括首先获取摄像头、激光雷达、毫米波雷达三传感器的原始数据,将获得的数据作为三种不同的模态输入到基于Transformer的多传感器融合网络中,其次用激光雷达源模态的特征反复强化摄像头目标模态,输出潜在适应后的新模态,然后再利用毫米波雷达源模态的特征反复强化所述的新模态特征,输出最终的融合结果,得到补充修正后的道路目标检测框。本发明专利技术能够避免车辆在行驶过程中,由于单一传感器的错检或者误检所带来的危害,从而保证为决策规划部分提供更为准确、丰富的道路目标信息。路目标信息。路目标信息。

【技术实现步骤摘要】
基于Transformer的多传感器融合目标检测方法


[0001]本专利技术涉及目标检测
,特别是涉及一种摄像头、激光雷达和毫米波雷达融合的目标检测方法。

技术介绍

[0002]近年来,随着智能驾驶技术的飞速发展,车辆行业对提高驾驶安全性的高级辅助驾驶系统的发展愈发重视,准确高效的环境感知是实现高级辅助驾驶的首要任务,当前,智能车辆环境感知技术主要依赖于雷达、视觉等车载传感器。视觉传感器主要用于目标识别等,优点有探测范围广,目标信息较完善等,缺点有计算量大,无法获取深度信息等;毫米波雷达传感器主要用于目标位置和速度检测,优点有可直接获取障碍物距离速度信息,可穿透雨雾浓烟等,缺点有噪声大,无法获取目标轮廓;激光雷达主要用于障碍物检测识别,深度信息获取,优点有可直接获取环境的三维信息,抗干扰性强,缺点有易受雨雪大雾等天气影响,成本较高;由于工作原理等方面原因,单一传感器通常只能获得被检测目标的部分特征,无法全面描述道路环境信息,难以满足智能驾驶的环境感知需求。
[0003]目前,较为流行的基于规则的后融合算法因为不同传感器的数据处理方法不同,所以在融合阶段需要对多传感器进行两两联合标定,难点之一就是时空对齐,将不同传感器的数据统一到同一坐标系下,难点之二就是融合策略的制定,针对传感器失效的情况,融合过程很难持续进行。

技术实现思路

[0004]本专利技术针对现有方法存在的问题,提供一种基于Transformer的多传感器融合目标检测方法,以期能实现智能驾驶领域感知方向的多传感器目标融合,获取更为准确、丰富的道路目标信息,从而避免车辆在行驶过程中,由于单一传感器的错检或者误检所带来的弊端。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0006]本专利技术一种基于Transformer网络的多传感器融合目标检测方法的特点在于,包括如下步骤:
[0007]A、由摄像头获取原始图像数据并输入预训练后的目标检测神经网络YOLOv4中进行处理,并输出道路目标的图像识别结果,其中,任意一个道路目标的图像识别结果所组成的图像特征序列记为N
C
,包括:道路目标的类别信息class
cam
和2D检测框数据bbox
cam_2D
以及置信度score
cam
,所述2D检测框数据bbox
cam_2D
包括:2D检测框的中心坐标(x
C_2D
,y
C_2D
),2D检测框的长w
C_2D
和宽h
C_2D

[0008]B、由激光雷达采集点云数据并输入预训练后的点云目标检测网络Pointpillars中进行处理,并输出道路目标的点云识别结果,其中,任意一个道路目标的点云识别结果所组成的点云特征序列记为N
L
,包括:道路目标的类别信息class
lidar
、2D检测框数据bbox
lidar_2D
、3D检测框数据bbox
lidar_3D
以及置信度score
lidar
;所述2D检测框数据bbox
lidar_2D
包括2D检测框的中心坐标(x
L_2D
,y
L_2D
),2D检测框的长w
L_2D
和宽h
L_2D
,所述3D检测框数据bbox
lidar_3D
包括:3D检测框的中心坐标(x
L_3D
,y
L_3D
,z
L_3D
),3D检测框的长w
L_3D
、宽h
L_3D
和高l
L_3D

[0009]C、利用毫米波雷达采集原始2D点云数据并进行聚类处理,得到道路目标的聚类结果,任意一个道路目标的聚类结果所组成的2D点云特征序列记为N
R
,包括:道路目标的类别信息class
radar
、2D检测框数据bbox
radar_2D
、道路目标速度信息velocity
radar
以及置信度score
radar
;所述2D检测框数据bbox
radar_2D
包括:2D检测框的中心坐标(x
R_2D
,y
R_2D
),2D检测框的长w
R_2D
和宽h
R_2D

[0010]D、将图像特征序列N
C
、点云特征序列N
L
、2D点云特征序列N
R
在特征维度上填充到统一尺寸,从而相应得到填充后的第一种模态C、第二种模态L、第三种模态R;
[0011]E、利用一种基于Transformer的多模态感知融合网络对所述第一种模态C、第二种模态L、第三种模态R进行处理:
[0012]E1、采用Transformer编码器对所述第一种模态C和第二种模态L进行关联和映射,从而将第二种模态L的低阶特征去潜在适应第一种模态C的特征数据,并输出融合模态C
*

[0013]E2、采用Transformer编码器对所述融合模态C
*
和第三种模态R进行关联和映射,从而将第三种模态R的低阶特征去潜在适应融合模态C
*
的特征数据,并输出最终融合模态C
**

[0014]E3、将所述最终融合模态C
**
中置信度小于σ的数据进行过滤,再采用非极大值抑制算法对过滤后的数据去除重复数据,最终输出多模态感知融合网络的预测检测框。
[0015]本专利技术所述的一种基于Transformer的多传感器融合目标检测方法的特点也在于,所述步骤E 1中融合模态C
*
是按如下步骤得到:
[0016]A、将所述第一种模态C和第二种模态L经过第一个残差块层处理,包括:
[0017]A1、通过LayerNorm层对所述第一种模态C和第二种模态L进行标准化处理,分别得到标准化后的第一种模态序列N
C1
和第二种模态序列N
L1

[0018]A2、利用μ种不同的线性变换矩阵W
q
对第一种模态序列N
C1
进行多尺度线性变换得到变换后的第一种模态序列Q
C

[0019]利用μ种不同的线性变换矩阵W
k
和W
v
分别对第二种模态序列N
L1
分别进行多尺度线性变换得到变换后的第二种模态序列K
L
和V
L

[0020]A3、将序列Q
C
、K
L
、V
L
再经过跨模态注意力层的处理后,得到关联代表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer网络的多传感器融合目标检测方法,其特征在于,包括如下步骤:A、由摄像头获取原始图像数据并输入预训练后的目标检测神经网络YOLOv4中进行处理,并输出道路目标的图像识别结果,其中,任意一个道路目标的图像识别结果所组成的图像特征序列记为N
C
,包括:道路目标的类别信息class
cam
和2D检测框数据bbox
cam_2D
以及置信度score
cam
,所述2D检测框数据bbox
cam_2D
包括:2D检测框的中心坐标(x
C_2D
,y
C_2D
),2D检测框的长w
C_2D
和宽h
C_2D
;B、由激光雷达采集点云数据并输入预训练后的点云目标检测网络Pointpillars中进行处理,并输出道路目标的点云识别结果,其中,任意一个道路目标的点云识别结果所组成的点云特征序列记为N
L
,包括:道路目标的类别信息class
lidar
、2D检测框数据bbox
lidar_2D
、3D检测框数据bbox
lidar_3D
以及置信度score
lidar
;所述2D检测框数据bbox
lidar_2D
包括2D检测框的中心坐标2D检测框的长和宽所述3D检测框数据bbox
lidar_3D
包括:3D检测框的中心坐标3D检测框的长宽和高C、利用毫米波雷达采集原始2D点云数据并进行聚类处理,得到道路目标的聚类结果,任意一个道路目标的聚类结果所组成的2D点云特征序列记为N
R
,包括:道路目标的类别信息class
radar
、2D检测框数据bbox
radar_2D
、道路目标速度信息velocity
radar
以及置信度score
radar
;所述2D检测框数据bbox
radar_2D
包括:2D检测框的中心坐标(x
R_2D
,y
R_2D
),2D检测框的长w
R_2D
和宽h
R_2D
;D、将图像特征序列N
C
、点云特征序列N
L
、2D点云特征序列N
R
在特征维度上填充到统一尺寸,从而相应得到填充后的第一种模态C、第二种模态L、第三种模态R;E、利用一种基于Transformer的多模态感知融合网络对所述第一种模态C、第二种模态L、第三种模态R进行处理:E1、采用Transformer编码器对所述第一种模态C和第二种模态L进行关联和映射,从而将第二种模态L的低阶特征去潜在适应第一种模态C的特征数据,并输出融合模态C
*
;E2、采用Transformer编码器对所述融合模态C
*

【专利技术属性】
技术研发人员:张炳力杨程磊姜俊昭潘泽昊王欣雨王怿昕王焱辉
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1