一种自动驾驶视觉感知特征提取方法及装置制造方法及图纸

技术编号:37866450 阅读:19 留言:0更新日期:2023-06-15 20:56
本发明专利技术提供一种自动驾驶视觉感知特征提取方法及装置,基于车身周围的多个摄像头传感器采集原始图像,以车身为中心将周边空间划分为多个体素单元;在主干网络提取原始图像特征的原始图像特征图,构建包含时序注意力模块和空间注意力模块的预设注意力模块,以每一个体素作为预测基本单位,通过时序注意力模块融合过去多时刻特征,通过空间注意力模块挖掘原始图像特征图映射在三维空间内各体素上的特征,实现从2D图像恢复出3D空间内的特征,并融合对多个时刻的记忆,挖掘更具有表征能力的空间特征,以满足自动驾驶下游任务的学习需求。以满足自动驾驶下游任务的学习需求。以满足自动驾驶下游任务的学习需求。

【技术实现步骤摘要】
一种自动驾驶视觉感知特征提取方法及装置


[0001]本专利技术涉及计算机视觉
,尤其涉及一种自动驾驶视觉感知特征提取方法及装置。

技术介绍

[0002]自动驾驶领域是当前的热门
,为了实现车辆自动驾驶及辅助驾驶功能,以车辆为主体对周边环境进行感知和特征提取是比不可少的过程。现有技术中对车身周围环境的感知方案主要包括雷达感测和视频采集两方面。
[0003]目前很多自动驾驶解决方案在很大程度上依赖雷达去获取深度的信息,虽然雷达可以更直接的获取到周围环境的深度信息,但是受制于雷达传感器的自身特性,也存在一些无法弥补的缺点,如:雷达传感器制造成本高,使用寿命低;由于雷达传感器自身探测原理的限制,距离越远,它能够获取到的深度信息就越稀疏。这就导致雷达对远处的物体的深度探测可能会有局部不一致的情况出现。另外,激光雷达在高度这一维度的探测也是相对稀疏的,要提高高度这一维度的探测密度,只能依靠增加雷达的线数,这无疑会增加硬件成本和计算成本。由于雷达只是依靠雷达波或者激光束的反射来计算自身与物体之间的距离,所以它只能获取周围环境的深度信息,而无法获得诸如颜色、纹理、光线等更加丰富的信息。
[0004]而对于采用摄像头进行视频采集感知的方案虽然能够弥补雷达的缺陷,但其通常是把3D的真实世界投影到2D的图像中,基于对图像中的特征进行提取,进而开展目标检测、可行驶区域检测、车道线检测等下游任务。由于图像成像原理的限制,无法像雷达一样显式获得周围环境的深度,会丢失很多信息。同时单一摄像头的感知范围有限,虽然摄像头的输出是以视频流的方式进行输出的,但是对于每一帧图像来说,它并不能包含之前时刻看到的信息,也就是说,摄像头没有记忆,无法感知周围环境中物体是静态还是动态。现有视觉感知方案中,通过深度神经网络框选和识别物体,但是对于具有显著突出部分的物体无法有效感知。并且,在遇到数据集中没有包含的情况时,自动驾驶车辆的视觉感知算法可能失效。
[0005]针对上述问题,亟需一种新的自动驾驶视觉感知特征提取方案。

技术实现思路

[0006]鉴于此,本专利技术实施例提供了一种自动驾驶视觉感知特征提取方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有自动驾驶视觉感知方案识别范围窄、无法感知空间位置且不具有记忆能力的问题。
[0007]本专利技术的技术方案如下:
[0008]一方面,本专利技术提供一种自动驾驶视觉感知特征提取方法,包括:
[0009]获取车身周围多个摄像头传感器提供的原始图像,以车身为中心和参考系,将所述车身周边设定范围的三维空间沿长宽高划分为H
×
W
×
D个单位体积的正方体体素;
[0010]将各摄像头传感器提供的原始图像分别输入主干网络进行图像特征提取,并对每个原始图像输出第一设定数量个不同尺度的原始图像特征图;
[0011]获取预设注意力模块,所述预设注意力模块包括时序注意力模块和空间注意力模块,在每一时刻中,所述时序注意力模块以第一查询矩阵以及所述预设注意力模块输出的上一时刻视觉感知特征图为输入,所述时序注意力模块将所述上一时刻视觉感知特征图和所述第一查询矩阵连接得到2
×
(H
×
W
×
D)
×
C维第二查询矩阵,所述第二查询矩阵通过线性层映射得到2
×
(H
×
W
×
D)
×
C维第一价值矩阵,采用所述第二查询矩阵基于可变形多头注意力机制查询所述第一价值矩阵并计算注意力,更新所述第二查询矩阵;将更新后的所述第二查询矩阵融合成1
×
(H
×
W
×
D)
×
C维的第三查询矩阵;将所述第三查询矩阵与所述第一查询矩阵进行残差连接和正则化得到1
×
(H
×
W
×
D)
×
C维第四查询矩阵;所述空间注意力模块以所述第四查询矩阵和各原始图像特征图为输入,获取所述第四查询矩阵中每个查询向量对应体素在各原始图像上的投影坐标,以各原始图像特征图为第二价值矩阵,通过多头注意力机制利用所述第四查询矩阵查询相应原始图像特征图上的投影坐标位置,计算注意力得到第五查询矩阵,将所述第五查询矩阵和所述第四查询矩阵进行残差连接和正则化得到1
×
(H
×
W
×
D)
×
C维当前时刻视觉感知特征图,以应用于执行自动驾驶下游任务;
[0012]其中,在初始状态下,所述第一查询矩阵由bev_embedding和pose_embedding相加得到,所述bev_embedding和所述pose_embedding的维度均为1
×
(H
×
W
×
D)
×
C;所述bev_embedding通过随机初始化得到,所述pose_embedding由各体素坐标经过线性层映射得到的;在第一帧时,由于没有历史视觉感知特征图,所以第二查询矩阵由相同的两个维度为1
×
(H
×
W
×
D)
×
C的第一查询矩阵拼接而成,拼接后其维度是2
×
(H
×
W
×
D)
×
C;而在非第一帧的时候,第二查询矩阵是由一个维度为1
×
(H
×
W
×
D)
×
C的历史视觉感知特征图和一个维度为1
×
(H
×
W
×
D)
×
C的第一查询矩阵拼接而成的,拼接后其维度依旧是2
×
(H
×
W
×
D)
×
C。第一价值矩阵由第二查询矩阵经过一个线性连接层得到,其维度是2
×
(H
×
W
×
D)
×
C;所述第二查询矩阵中的前(H
×
W
×
D)
×
C部分,在添加从当前时刻到上一时刻车身偏移量的情况下,对第一价值矩阵中的前(H
×
W
×
D)
×
C部分进行采样;所述第二查询矩阵中的后(H
×
W
×
D)
×
C部分,对第一价值矩阵中的后(H
×
W
×
D)
×
C部分进行采样。
[0013]在一些实施例中,所述方法还包括:对所述当前时刻视觉感知特征图进行上采样以提高分辨率。
[0014]在一些实施例中,所述方法中:
[0015]在所述第二查询矩阵中每个查询向量的采样过程中,获取每个查询向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动驾驶视觉感知特征提取方法,其特征在于,包括:获取车身周围多个摄像头传感器提供的原始图像,以车身为中心和参考系,将所述车身周边设定范围的三维空间沿长宽高划分为H
×
W
×
D个单位体积的正方体体素;将各摄像头传感器提供的原始图像分别输入主干网络进行图像特征提取,并对每个原始图像输出第一设定数量个不同尺度的原始图像特征图;获取预设注意力模块,所述预设注意力模块包括时序注意力模块和空间注意力模块,在每一时刻中,所述时序注意力模块以第一查询矩阵以及所述预设注意力模块输出的上一时刻视觉感知特征图为输入,所述时序注意力模块将所述上一时刻视觉感知特征图和所述第一查询矩阵连接得到2
×
(H
×
W
×
D)
×
C维第二查询矩阵,所述第二查询矩阵通过线性层映射得到2
×
(H
×
W
×
D)
×
C维第一价值矩阵,采用所述第二查询矩阵基于可变形多头注意力机制查询所述第一价值矩阵并计算注意力,更新所述第二查询矩阵;将更新后的2
×
(H
×
W
×
D)
×
C维的第二查询矩阵在第一个维度上求均值,从而融合生成1
×
(H
×
W
×
D)
×
C维的第三查询矩阵;将所述第三查询矩阵与所述第一查询矩阵进行残差连接和正则化得到1
×
(H
×
W
×
D)
×
C维第四查询矩阵;所述空间注意力模块以所述第四查询矩阵和各原始图像特征图为输入,获取所述第四查询矩阵中每个查询向量对应体素在各原始图像上的投影坐标,以各原始图像特征图为第二价值矩阵,通过多头注意力机制利用所述第四查询矩阵查询相应原始图像特征图上的投影坐标位置,计算注意力得到第五查询矩阵,将所述第五查询矩阵和所述第四查询矩阵进行残差连接和正则化得到1
×
(H
×
W
×
D)
×
C维当前时刻视觉感知特征图,以应用于执行自动驾驶下游任务;其中,在初始状态下,所述第一查询矩阵由bev_embedding和pose_embedding相加得到,所述bev_embedding和所述pose_embedding的维度均为1
×
(H
×
W
×
D)
×
C;所述bev_embedding通过随机初始化得到,所述pose_embedding由各体素坐标经过线性层映射得到的;在第一帧时,由于没有历史视觉感知特征图,所以第二查询矩阵就由相同的两个维度为1
×
(H
×
W
×
D)
×
C的第一查询矩阵拼接而成,拼接后其维度是2
×
(H
×
W
×
D)
×
C;而在非第一帧的时候,第二查询矩阵是由一个维度为1
×
(H
×
W
...

【专利技术属性】
技术研发人员:柯柱良孙云峰闵正益田宇
申请(专利权)人:上海零念科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1