纯视觉模态的制造技术

技术编号:39641043 阅读:9 留言:0更新日期:2023-12-09 11:07
本发明专利技术实施例提供了一种纯视觉模态的

【技术实现步骤摘要】
纯视觉模态的bev感知方法、装置、设备及介质


[0001]本专利技术涉及自动驾驶
,特别涉及一种纯视觉模态的
bev
感知方法

装置

设备及介质


技术介绍

[0002]自动驾驶汽车指主要依靠人工智能,视觉计算,雷达,
GPS
定位以及结构化道路车路协同等技术,使汽车具有环境感知,路径规划和自主控制的能力,从而可让嵌入式边缘计算终端自动操作的机动车辆


2020
年开始,行业内已经开始普及
L2

L3
级别自动驾驶的概念
。2021
年是自动驾驶技术发展的非常重要的节点,是自动驾驶技术进入
L3
级别的元年

有别于传统的人类驾驶车辆的是,自动驾驶车辆非常核心的特点就是
AI
技术的应用及主导,其驾驶过程也是计算机通过不间断的收集行驶过程中的各类信息,通过机器学习或者深度学习的方式进行信息分析和自我学习而后操控车辆,从而达到计算机自动驾驶车辆的系统工程

而对于自动驾驶车辆来说,所追求的是在任何路况,任何环境下都要安全行驶并及时对极端情况反应,保障驾驶者的人生安全和车辆安全以及道路参与者的安全

[0003]目前自动驾驶领域是深度学习算法实现部署及落地的一个重要领域,自动驾驶算法也处在快速更新迭代的过程,不仅有各式新颖的算法在目标检测,车道线识别,目标跟踪,语义分割,动态目标轨迹预测,多任务学习等领域不断被提出

自动驾驶算法技术框架核心分为环境感知

决策规划

控制执行三部分,其中环境感知部分将传感器数据转换成车辆所处场景的机器语言,具体可以包括:物体检测

识别跟踪

环境建模

运动估计等

近年来随着高阶辅助驾驶方案越来越被市场接收,对于自动驾驶感知算法的要求也越来越高,
BEV(Bird Eye View)
感知受到了广泛的关注
。BEV
感知范式主要提供了一个统一的空间,方便各项任务

传感器的融合
。BEV
感知系统可以将多个摄像头或雷达得到的信息转换至鸟瞰视角,再做目标检测

实例分割等任务,能更直观地显示出
BEV
空间中的物体大小和方向,但是对于车规级
AI
芯片的算力要求会比较高

故而学术界及工业界会有大量的研究集中在如何设计嵌入式友好的
BEV
感知算法模型,其中
m2bev
算法通过其高效的视角转换方式,仅仅使用了纯视觉模态的情况下保证了足够高的精度,且在嵌入式
AI
芯片上能够有不俗的推理速度表现

[0004]目前提出的纯视觉
BEV
算法目标物检测精度大多相对其他模态的检测精度较低,同时为了保证能够在算力有限的嵌入式
AI
芯片上的实时性,会采用更小计算量的网络设计,导致算法检测精度进一步降低,同时学术界相关算法只在小批量的开源数据集上做了算法的设计及验证,
BEV
模型在不同场景下的鲁棒性无法得到保证


技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种纯视觉模态的
bev
感知方法,以解决了现有技术中检测精度较低,鲁棒性不高的技术问题

该方法包括:
[0006]对数据集中不同视角下的视觉
2d
图像确定目标区域,根据不同视角下的视觉
2d

像的目标区域对数据集中对应视角下的视觉
2d
图像进行裁剪,生成有效
2d
图像,其中,数据集包括的视觉
2d
图像为多个视角下采集的未去畸变的
2d
图像,目标区域为以待感知物体为中心的区域;
[0007]通过感知模型提取有效
2d
图像中的图像特征,将
3d
体积像素空间按照高度方向分为多层,并为不同层设置不同的层间隔和不同的权重,将层间隔和权重作为参数,通过视角转换将有效
2d
图像中的图像特征投影至多层
3d
体积像素空间,将图像特征转换为
bev
特征;
[0008]通过感知模型将
bev
特征转换为待感知物体的
3d
目标框,并输出
3d
目标框的信息

[0009]本专利技术实施例还提供了一种纯视觉模态的
bev
感知装置,以解决了现有技术中检测精度较低,鲁棒性不高的技术问题

该装置包括:
[0010]2d
图像剪裁模块,用于对数据集中不同视角下的视觉
2d
图像确定目标区域,根据不同视角下的视觉
2d
图像的目标区域对数据集中对应视角下的视觉
2d
图像进行裁剪,生成有效
2d
图像,其中,数据集包括的视觉
2d
图像为多个视角下采集的未去畸变的
2d
图像,目标区域为以待感知物体为中心的区域;
[0011]感知模块,用于通过感知模型提取有效
2d
图像中的图像特征,将
3d
体积像素空间按照高度方向分为多层,并为不同层设置不同的层间隔和不同的权重,将层间隔和权重作为参数,通过视角转换将有效
2d
图像中的图像特征投影至多层
3d
体积像素空间,将图像特征转换为
bev
特征;
[0012]目标框信息输出模块,用于通过感知模型将
bev
特征转换为待感知物体的
3d
目标框,并输出
3d
目标框的信息

[0013]本专利技术实施例还提供了一种计算机设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的纯视觉模态的
bev
感知方法,以解决了现有技术中检测精度较低,鲁棒性不高的技术问题

[0014]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的纯视觉模态的
bev
感知方法的计算机程序,以解决了现有技术中检测精度较低,鲁棒性不高的技术问题

[0015]与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:
[0016]基于视觉
2d
图像的裁剪方法来实现图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种纯视觉模态的
bev
感知方法,其特征在于,包括:对数据集中不同视角下的视觉
2d
图像确定目标区域,根据不同视角下的视觉
2d
图像的目标区域对所述数据集中对应视角下的视觉
2d
图像进行裁剪,生成有效
2d
图像,其中,所述数据集包括的视觉
2d
图像为多个视角下采集的未去畸变的
2d
图像,所述目标区域为以待感知物体为中心的区域;通过感知模型提取所述有效
2d
图像中的图像特征,将
3d
体积像素空间按照高度方向分为多层,并为不同层设置不同的层间隔和不同的权重,将所述层间隔和所述权重作为参数,通过视角转换将所述有效
2d
图像中的所述图像特征投影至多层
3d
体积像素空间,将所述图像特征转换为
bev
特征;通过感知模型将所述
bev
特征转换为待感知物体的
3d
目标框,并输出所述
3d
目标框的信息
。2.
如权利要求1所述的纯视觉模态的
bev
感知方法,其特征在于,对数据集中不同视角下的视觉
2d
图像确定目标区域,根据不同视角下的视觉
2d
图像的目标区域对所述数据集中对应视角下的视觉
2d
图像进行裁剪,生成有效
2d
图像,包括:以每个视角为单位,为每个视角分别设置经验高度值,其中,所述经验高度值小于所述视觉
2d
图像的总高度;以每个视角为单位,计算所述数据集中每个视角下所有的所述视觉
2d
图像中待感知物体的中心点的高度,生成高度数据集,计算每个视角的所述高度数据集的平均值,将所述平均值作为每个视角下的中心裁剪高度;将所述经验高度值的
1/2
作为基准高度,将所述裁剪中心高度加上所述基准高度作为第一高度,将所述裁剪中心高度减去所述基准高度作为第二高度,所述第一高度和所述第二高度之间的区域为每个视角下的视觉
2d
图像的目标区域;在每个视角下的所述视觉
2d
图像中保留该视角下的视觉
2d
图像的目标区域,并裁剪掉目标区域之外的图像,得到每个视角下的所述有效
2d
图像
。3.
如权利要求1所述的纯视觉模态的
bev
感知方法,其特征在于,将
3d
体积像素空间按照高度方向分为多层,并为不同层设置不同的层间隔和不同的权重,包括:确定输入集,所述输入集包括多组图像的高度区间值,所述高度区间值内的每个高度值均大于0且小于所述视觉
2d
图像的总高度值;将所述输入集作为输入,利用超深度学习算法的超参数搜索计算出最优的设定输入区间,将所述最优的设定输入区间的差值设置为所述视觉
2d
图像在高度方向的层间隔,其中,所述最优的设定输入区间的差值与所述视觉
2d
图像中对应层包括的物体密集度成负相关,所述视觉
2d
图像中对应层包括的物体密集度越高,该层对应的层间隔越小;按照所述视觉
2d
图像在高度方向的层间隔,将所述
3d
体积像素空间分割为多层;利用超参数搜索计算出
3d
体积像素空间的每层的最优权重,每层的最优权重的大小与所述视觉
2d
图像中对应层包括的物体密集度成正相关,所述视觉
2d
图像中对应层包括的物体密集度越高,该层对应的权重越大
。4.
如权利要求1所述的纯视觉模态的
bev
感知方法,其特征在于,将所述层间隔和所述权重作为参数,通过视角转换将所述有效
2d
图像中的所述图像特征投影至多层
3d
体积像素空间,将所述图像特征转换为<...

【专利技术属性】
技术研发人员:李章洪王汝卓王雅儒程建伟
申请(专利权)人:武汉极目智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1