基于BEV的图像检测模型训练及目标检测方法和装置制造方法及图纸

技术编号：37701281 阅读：28 留言：0更新日期：2023-06-01 23:45

本公开提供了一种基于BEV的图像检测模型训练及目标检测方法和装置，涉及人工智能技术领域，尤其涉及自动驾驶技术领域。该方法包括：对N个视角图像进行特征提取，得到N个多层图像特征图，并基于N个多层图像特征图进行深度估计，得到N个深度特征图；基于N个多层图像特征图、N个深度特征图和第l次训练输出的鸟瞰视角BEV特征图l，对图像检测模型进行第l+1次训练，输出BEV特征图l+1和目标检测结果；根据深度特征图和目标检测结果，对图像检测模型进行模型参数调整，并对调整后的图像检测模型进行继续训练，直至得到目标图像检测模型。本公开能够提升特征空间转换的准确性，在BEV空间下进行准确且高效的3D目标检测。准确且高效的3D目标检测。准确且高效的3D目标检测。

全部详细技术资料下载

【技术实现步骤摘要】
基于BEV的图像检测模型训练及目标检测方法和装置

[0001]本公开涉及人工智能
，尤其涉及自动驾驶

技术介绍

[0002]在自动驾驶中，常常需要基于车载摄像头采集的图像在鸟瞰视角(Bird
’
s Eye View，BEV)空间中使用，以便执行后续的驾驶规划等操作。
[0003]随着自动驾驶汽车(SDV)装备传感器的多样性和数量越来越复杂，以统一的视角表示不同视角的特征变得至关重要。著名的鸟瞰视图(BEV)是一种自然而直接的候选视图，可以作为统一的表示。与二维视觉领域中被广泛研究的前视图或透视视图相比，BEV表示具有一些内在的优点。首先，它不存在二维任务中普遍存在的遮挡和尺度问题。识别有遮挡或交叉交通的车辆可以得到更好的解决。此外，以这种形式表示物体或道路元素将有利于后续模块(如规划、控制)的开发和部署。
[0004]因此，如何进一步提高图像检测效率以及准确率、提升特征空间转换的准确性，在BEV空间下进行准确且高效的3D目标检测，已经成为重要的研究方向之一。
专利技术内容
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像检测模型的训练方法，其中，所述方法包括：对N个视角图像进行特征提取，得到N个多层图像特征图，并基于所述N个多层图像特征图进行深度估计，得到N个深度特征图，所述N为正整数；基于所述N个多层图像特征图、所述N个深度特征图和第l次训练输出的鸟瞰视角BEV特征图l，对图像检测模型进行第l+1次训练，输出BEV特征图l+1和目标检测结果，所述l为正整数；根据所述深度特征图和所述目标检测结果，对所述图像检测模型进行模型参数调整，并对调整后的图像检测模型进行继续训练，直至得到目标图像检测模型。2.根据权利要求1所述的方法，其中，所述基于所述N个多层图像特征图、所述N个深度特征图和第l次训练输出的鸟瞰视角BEV特征图l，对图像检测模型进行第l+1次训练，输出BEV特征图l+1和目标检测结果，包括：由所述图像检测模型中的注意力机制网络对所述N个多层图像特征图、所述N个深度特征图和所述BEV特征图l进行注意力机制，得到所述BEV特征图l+1；由所述图像检测模型中的目标检测网络，对所述BEV特征图l+1进行目标检测，得到所述目标检测结果。3.根据权利要求2所述的方法，其中，所述由所述图像检测模型中的注意力机制网络对所述N个多层图像特征图、所述N个估计深度图和所述BEV特征图l进行注意力机制，得到所述BEV特征图l+1，包括：确定从激光雷达坐标系向图像坐标系的转换矩阵；基于所述转换矩阵，确定所述BEV特征图l对应的T个查询向量可投影至的目标图像，其中，所述目标图像为所述多视角图像中的n个图像，所述n为整数，且1≤n≤N，所述T为正整数；确定所述目标图像对应的每层图像特征图的值向量和键向量；对所述查询向量和所述每层图像特征图的值向量和键向量进行逐个像素位置的多头全局注意力机制，得到所述BEV特征图l+1。4.根据权利要求3所述的方法，其中，所述对所述查询向量和所述每层图像特征图的值向量和键向量进行逐个像素位置的多头全局注意力机制，得到所述BEV特征图l+1，包括：对所述T个查询向量中的查询向量i，根据所述查询向量i和第s层图像特征图的值向量和键向量，得到所述目标图像对应的第s层的第一矩阵，并对每层的所述第一矩阵相加，得到注意力头的第二矩阵；其中，i和s均为整数，且1≤i≤T；根据注意力头的第二矩阵与所述注意力头的权重矩阵，得到所述注意力头的第三矩阵，并对每个所述注意力头的第三矩阵相加，得到所述查询向量i的全局注意力矩阵；对所述T个查询向量的全局注意力矩阵相加，得到所述BEV特征图l+1。5.根据权利要求4所述的方法，其中，所述根据所述查询向量i和第s图像特征图的值向量和键向量，得到所述目标图像对应的第s层的第一矩阵，包括：根据所述目标图像的深度特征图，确定所述目标图像上位置j的第一深度值；根据所述查询向量i中所述位置j的第二深度值和所述第一深度值，确定所述位置j在所述查询向量i维度上的第一权重；根据所述查询向量i、所述位置j在第s层图像特征图上的键、所述位置j的所述权重和
位置j在第s层图像特征图上的值，得到所述目标图像对应的第s层的第一矩阵。6.根据权利要求2所述的方法，其中，所述由所述图像检测模型中的注意力机制网络对所述N个多层图像特征图、所述N个估计深度图和所述BEV特征图l进行注意力机制，得到所述BEV特征图l+1，包括：确定从激光雷达坐标系向图像坐标系的转换矩阵；基于所述转换矩阵，确定所述BEV特征图l对应的T个查询向量投影至目标图像上的投影图像位置；其中，所述目标图像为所述多视角图像中的n个图像，所述n为整数，且1≤n≤N，所述T为正整数；对所述投影图像位置的周围进行采样，得到采样位置；对所述查询向量、每层图像特征图的键向量和所述采样位置进行多头可变形注意力机制，得到所述BEV特征图l+1。7.根据权利要求6所述的方法，其中，所述对所述查询向量、每层图像特征图的键向量和所述采样位置进行多头可变形注意力机制，得到所述BEV特征图l+1，包括：对所述T个查询向量中的查询向量i，根据所述查询向量i、所述采样位置和第s层图像特征图，得到所述采样位置在第s层的第四矩阵；对每层的第四矩阵相加，得到注意力头的第五矩阵；根据注意力头的第五矩阵与所述注意力头的权重矩阵，得到所述注意力头的第六矩阵，并对每个所述注意力头的第六矩阵相加，得到所述查询向量i的可变形注意力矩阵；对所述T个查询向量的可变形注意力矩阵相加，得到所述BEV特征图l+1。8.根据权利要求7所述的方法，其中，所述根据所述查询向量i、所述采样位置和第s层图像特征图，得到所述采样位置在第s层的第四矩阵，包括：根据所述目标图像的深度特征图，确定所述采样位置f的第三深度值；根据所述查询向量i中所述采样位置f的第四深度值和所述第三深度值，确定所述采样位置f在所述查询向量i维度上的第二权重；对所述查询向量i的第一坐标进行坐标拉伸，得到第s层尺寸下的第二坐标；根据所述第二坐标、所述采样位置f的所述第二权重和所述第s层图像特征图上的值，得到所述采样位置在第s层的第四矩阵。9.根据权利要求1
‑
8中任一项所述的方法，其中，所述根据所述深度特征图和所述目标检测结果，对所述图像检测模型进行模型参数调整，包括：获取所述深度特征图和参考深度特征图之间的第一损失函数；获取所述目标检测结果和参考检测结果之间的第二损失函数；根据所述第一损失函数和所述第二损失函数，得到所述图像检测模型的总损失函数；根据所述总损失函数对所述图像检测模型进行模型参数调整。10.一种目标检测方法，其中，包括：获取当前时刻的待检测N个视角图像，并提取所述待检测N个视角图像的N个多层图像特征图；基于所述N个多层图像特征图进行深度估计，得到N个深度特征图；将所述N个多层图像特征图和所述N个深度特征图输入目标图像检测模型中，由所述目标图像检测模型基于所述N个多层图像特征图和所述N个深度特征图和模型上一次的BEV特
征图进行注意力机制，得到目标BEV特征图；对目标BEV特征图进行目标检测，得到目标检测结果；其中，所述目标图像检测模型为采用如权利要求1
‑
9中任一项所述的装置训练得到。11.一种图像检测模型的训练装置，其...

【专利技术属性】
技术研发人员：何叶，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人