【技术实现步骤摘要】
一种自动驾驶视觉感知特征提取方法及装置
[0001]本专利技术涉及计算机视觉
,尤其涉及一种自动驾驶视觉感知特征提取方法及装置。
技术介绍
[0002]自动驾驶领域是当前的热门
,为了实现车辆自动驾驶及辅助驾驶功能,以车辆为主体对周边环境进行感知和特征提取是比不可少的过程。现有技术中对车身周围环境的感知方案主要包括雷达感测和视频采集两方面。
[0003]目前很多自动驾驶解决方案在很大程度上依赖雷达去获取深度的信息,虽然雷达可以更直接的获取到周围环境的深度信息,但是受制于雷达传感器的自身特性,也存在一些无法弥补的缺点,如:雷达传感器制造成本高,使用寿命低;由于雷达传感器自身探测原理的限制,距离越远,它能够获取到的深度信息就越稀疏。这就导致雷达对远处的物体的深度探测可能会有局部不一致的情况出现。另外,激光雷达在高度这一维度的探测也是相对稀疏的,要提高高度这一维度的探测密度,只能依靠增加雷达的线数,这无疑会增加硬件成本和计算成本。由于雷达只是依靠雷达波或者激光束的反射来计算自身与物体之间的距离,所以它只能获取周围环境的深度信息,而无法获得诸如颜色、纹理、光线等更加丰富的信息。
[0004]而对于采用摄像头进行视频采集感知的方案虽然能够弥补雷达的缺陷,但其通常是把3D的真实世界投影到2D的图像中,基于对图像中的特征进行提取,进而开展目标检测、可行驶区域检测、车道线检测等下游任务。由于图像成像原理的限制,无法像雷达一样显式获得周围环境的深度,会丢失很多信息。同时单一摄像头的感知范围有限,虽然摄像头的 ...
【技术保护点】
【技术特征摘要】
1.一种自动驾驶视觉感知特征提取方法,其特征在于,包括:获取车身周围多个摄像头传感器提供的原始图像,以车身为中心和参考系,将所述车身周边设定范围的三维空间沿长宽高划分为H
×
W
×
D个单位体积的正方体体素;将各摄像头传感器提供的原始图像分别输入主干网络进行图像特征提取,并对每个原始图像输出第一设定数量个不同尺度的原始图像特征图;获取预设注意力模块,所述预设注意力模块包括时序注意力模块和空间注意力模块,在每一时刻中,所述时序注意力模块以第一查询矩阵以及所述预设注意力模块输出的上一时刻视觉感知特征图为输入,所述时序注意力模块将所述上一时刻视觉感知特征图和所述第一查询矩阵连接得到2
×
(H
×
W
×
D)
×
C维第二查询矩阵,所述第二查询矩阵通过线性层映射得到2
×
(H
×
W
×
D)
×
C维第一价值矩阵,采用所述第二查询矩阵基于可变形多头注意力机制查询所述第一价值矩阵并计算注意力,更新所述第二查询矩阵;将更新后的2
×
(H
×
W
×
D)
×
C维的第二查询矩阵在第一个维度上求均值,从而融合生成1
×
(H
×
W
×
D)
×
C维的第三查询矩阵;将所述第三查询矩阵与所述第一查询矩阵进行残差连接和正则化得到1
×
(H
×
W
×
D)
×
C维第四查询矩阵;所述空间注意力模块以所述第四查询矩阵和各原始图像特征图为输入,获取所述第四查询矩阵中每个查询向量对应体素在各原始图像上的投影坐标,以各原始图像特征图为第二价值矩阵,通过多头注意力机制利用所述第四查询矩阵查询相应原始图像特征图上的投影坐标位置,计算注意力得到第五查询矩阵,将所述第五查询矩阵和所述第四查询矩阵进行残差连接和正则化得到1
×
(H
×
W
×
D)
×
C维当前时刻视觉感知特征图,以应用于执行自动驾驶下游任务;其中,在初始状态下,所述第一查询矩阵由bev_embedding和pose_embedding相加得到,所述bev_embedding和所述pose_embedding的维度均为1
×
(H
×
W
×
D)
×
C;所述bev_embedding通过随机初始化得到,所述pose_embedding由各体素坐标经过线性层映射得到的;在第一帧时,由于没有历史视觉感知特征图,所以第二查询矩阵就由相同的两个维度为1
×
(H
×
W
×
D)
×
C的第一查询矩阵拼接而成,拼接后其维度是2
×
(H
×
W
×
D)
×
C;而在非第一帧的时候,第二查询矩阵是由一个维度为1
×
(H
×
W
...
【专利技术属性】
技术研发人员:柯柱良,孙云峰,闵正益,田宇,
申请(专利权)人:上海零念科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。