一种跨模态多任务环境感知方法及系统技术方案

技术编号:39772709 阅读:9 留言:0更新日期:2023-12-22 02:22
本发明专利技术公开一种跨模态多任务环境感知方法及系统,涉及车辆自动驾驶领域,该方法根据雷达点云信息生成密集深度图;将密集深度图与图像特征图融合;根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到

【技术实现步骤摘要】
一种跨模态多任务环境感知方法及系统


[0001]本专利技术涉及车辆自动驾驶领域,特别是涉及一种跨模态多任务环境感知方法及系统


技术介绍

[0002]自动驾驶车辆包括感知

决策及规划控制模块,在统一框架下构建鲁棒的包含车辆周围动

静态信息的环境感知系统,有助于提升后续决策

规划任务的性能

[0003]现有的环境感知系统以多模态传感器的观测信息为输入,首先通过数据级融合或特征级融合实现多模态信息融合,然后在不同框架下分别执行在线
3D
检测和离线高精度地图生成,最后将不同框架下的感知结果转换到统一空间以构建包含车辆周围动

静态信息的环境感知系统

现有方法主要存在以下缺点:
[0004]1)
现有方法需要在不同的框架下分别执行在线
3D
检测和离线高精度地图生成,通过将不同框架下的感知结果转换到统一空间以构建环境感知系统,降低了环境感知的效率

[0005]2)
现有方法需要基于离线高精度地图来构建环境感知系统,而离线高精度地图的生成是复杂且昂贵的,难以覆盖所有道路场景,限制了自动驾驶车辆的应用范围

[0006]3)
现有基于数据级融合或特征级融合的环境感知方法不能够充分利用多模态传感器的观测信息,限制了感知系统在恶劣环境下的鲁棒性,例如传感器不对齐和恶劣天气等

[0007]因此,充分融合车载多模态传感器的观测信息,并在统一框架下联合执行
3D
检测和局部高精度地图生成,对于构建高效

鲁棒的环境感知系统至关重要


技术实现思路

[0008]本专利技术的目的是提供一种跨模态多任务环境感知方法及系统,能够在统一框架下构建高效

鲁棒的环境感知系统,实现对车辆周围动

静态信息的感知

[0009]为实现上述目的,本专利技术提供了如下方案:
[0010]一种跨模态多任务环境感知方法,包括:
[0011]获取观测信息;所述观测信息包括:利用车载多视相机获取的图像信息以及利用激光雷达获取的雷达点云信息;
[0012]利用第一特征提取网络提取图像的多尺度特征,并构建特征金字塔网络;
[0013]将雷达点云信息投影到图像平面得到稀疏深度图,并使用
OpenCV
形态学操作对稀疏深度图进行深度补全得到密集深度图;
[0014]利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到
3D
空间,生成图像特征点云;
[0015]利用鸟瞰图池化操作将图像特征点云转换到
BEV
空间,生成相机
BEV
特征;
[0016]将雷达点投影到图像平面以捕获对应的关联像素,以关联像素为中心构建关联区域,并利用最大池化操作提取关联区域的关联向量;
[0017]将雷达点与对应的关联向量进行串联,实现多模态信息数据级融合,并利用第二特征提取网络提取融合后的雷达点云的特征信息,生成雷达
BEV
特征;
[0018]利用注意力机制在共享
BEV
空间中将相机
BEV
特征和雷达
BEV
特征融合,实现多模态信息
BEV
级融合,生成强
BEV
特征;
[0019]在强
BEV
特征上联合执行
3D
检测和局部高精度地图生成,构建环境感知系统

[0020]可选地,所述第一特征提取网络为
Swin

T
网络

[0021]可选地,所述利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到
3D
空间,生成图像特征点云,具体包括以下:
[0022]p
d

α
d
×
c

[0023]其中,
p
d
为图像特征点云中与像素
p
对应且深度为
d
处的特征信息,
α
d
为离散深度概率,
c
为像素
p
处的上下文向量

[0024]可选地,所述利用鸟瞰图池化操作将图像特征点云转换到
BEV
空间,生成相机
BEV
特征,之前还包括:
[0025]利用
Precalculation
方法和
Interval Reduction
方法对鸟瞰图池化进行优化

[0026]可选地,所述第二特征提取网络为
VoxelNet
网络

[0027]可选地,所述利用注意力机制在共享
BEV
空间中将相机
BEV
特征和雷达
BEV
特征融合,实现多模态信息
BEV
级融合,生成强
BEV
特征,具体包括以下公式:
[0028][0029]其中,
F
A
为融合特征图,
Q
为雷达
BEV
特征的查询向量,
K、V
分别为相机
BEV
特征的键和值,
Softmax
为非极大值抑制,
d
k
为通道维度的缩放系数

[0030]一种跨模态多任务环境感知系统,包括:
[0031]观测信息获取模块,用于获取观测信息;所述观测信息包括:利用车载多视相机获取的图像信息以及利用激光雷达获取的雷达点云信息;
[0032]图像特征提取模块,用于利用第一特征提取网络提取图像的多尺度特征,并构建特征金字塔网络;
[0033]图像深度图生成模块,用于将雷达点云信息投影到图像平面得到稀疏深度图,并使用
OpenCV
形态学操作对稀疏深度图进行深度补全得到密集深度图;
[0034]图像特征点云生成模块,用于利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到
3D
空间,生成图像特征点云;
[0035]相机
BEV
特征提取模块,用于利用鸟瞰图池化操作将图像特征点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种跨模态多任务环境感知方法,其特征在于,包括:获取观测信息;所述观测信息包括:利用车载多视相机获取的图像信息以及利用激光雷达获取的雷达点云信息;利用第一特征提取网络提取图像的多尺度特征,并构建特征金字塔网络;将雷达点云信息投影到图像平面得到稀疏深度图,并使用
OpenCV
形态学操作对稀疏深度图进行深度补全得到密集深度图;利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到
3D
空间,生成图像特征点云;利用鸟瞰图池化操作将图像特征点云转换到
BEV
空间,生成相机
BEV
特征;将雷达点投影到图像平面以捕获对应的关联像素,以关联像素为中心构建关联区域,并利用最大池化操作提取关联区域的关联向量;将雷达点与对应的关联向量进行串联,实现多模态信息数据级融合,并利用第二特征提取网络提取融合后的雷达点云的特征信息,生成雷达
BEV
特征;利用注意力机制在共享
BEV
空间中将相机
BEV
特征和雷达
BEV
特征融合,实现多模态信息
BEV
级融合,生成强
BEV
特征;在强
BEV
特征上联合执行
3D
检测和局部高精度地图生成,构建环境感知系统
。2.
根据权利要求1所述的一种跨模态多任务环境感知方法,其特征在于,所述第一特征提取网络为
Swin

T
网络
。3.
根据权利要求1所述的一种跨模态多任务环境感知方法,其特征在于,所述利用全卷积网络将密集深度图与特征金字塔网络中最深层的特征图融合,实现多模态信息数据级融合,根据融合特征预测图像中每个像素的上下文向量和离散深度概率,并沿相机射线投影到
3D
空间,生成图像特征点云,具体包括以下:
p
d

α
d
×
c
;其中,
p
d
为图像特征点云中与像素
p
对应且深度为
d
处的特征信息,
α
d
为离散深度概率,
c
为像素
p
处的上下文向量
。4.
根据权利要求1所述的一种跨模态多任务环境感知方法,其特征在于,所述利用鸟瞰图池化操作将图像特征点云转换到
BEV
空间,生成相机
BEV
特征,之前还包括:利用
Precalculation
方法和
Interval Re...

【专利技术属性】
技术研发人员:龚建伟贾鹏齐建永王博洋王羽纯张宇波白锐乐亮王泽麟
申请(专利权)人:北理慧动北京教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1