基于BEV的图像检测模型训练及目标检测方法和装置制造方法及图纸

技术编号:37701281 阅读:21 留言:0更新日期:2023-06-01 23:45
本公开提供了一种基于BEV的图像检测模型训练及目标检测方法和装置,涉及人工智能技术领域,尤其涉及自动驾驶技术领域。该方法包括:对N个视角图像进行特征提取,得到N个多层图像特征图,并基于N个多层图像特征图进行深度估计,得到N个深度特征图;基于N个多层图像特征图、N个深度特征图和第l次训练输出的鸟瞰视角BEV特征图l,对图像检测模型进行第l+1次训练,输出BEV特征图l+1和目标检测结果;根据深度特征图和目标检测结果,对图像检测模型进行模型参数调整,并对调整后的图像检测模型进行继续训练,直至得到目标图像检测模型。本公开能够提升特征空间转换的准确性,在BEV空间下进行准确且高效的3D目标检测。准确且高效的3D目标检测。准确且高效的3D目标检测。

【技术实现步骤摘要】
基于BEV的图像检测模型训练及目标检测方法和装置


[0001]本公开涉及人工智能
,尤其涉及自动驾驶


技术介绍

[0002]在自动驾驶中,常常需要基于车载摄像头采集的图像在鸟瞰视角(Bird

s Eye View,BEV)空间中使用,以便执行后续的驾驶规划等操作。
[0003]随着自动驾驶汽车(SDV)装备传感器的多样性和数量越来越复杂,以统一的视角表示不同视角的特征变得至关重要。著名的鸟瞰视图(BEV)是一种自然而直接的候选视图,可以作为统一的表示。与二维视觉领域中被广泛研究的前视图或透视视图相比,BEV表示具有一些内在的优点。首先,它不存在二维任务中普遍存在的遮挡和尺度问题。识别有遮挡或交叉交通的车辆可以得到更好的解决。此外,以这种形式表示物体或道路元素将有利于后续模块(如规划、控制)的开发和部署。
[0004]因此,如何进一步提高图像检测效率以及准确率、提升特征空间转换的准确性,在BEV空间下进行准确且高效的3D目标检测,已经成为重要的研究方向之一。

技术实现思路

[0005]本公开提供了一种基于BEV的图像检测模型训练及目标检测方法和装置。
[0006]根据本公开的一方面,提供了一种图像检测模型的训练方法,该方法包括:
[0007]对N个视角图像进行特征提取,得到N个多层图像特征图,并基于所述N个多层图像特征图进行深度估计,得到N个深度特征图,所述N为正整数;
[0008]基于所述N个多层图像特征图、所述N个深度特征图和第l次训练输出的鸟瞰视角BEV特征图l,对图像检测模型进行第l+1次训练,输出BEV特征图l+1和目标检测结果,所述l为正整数;
[0009]根据所述深度特征图和所述目标检测结果,对所述图像检测模型进行模型参数调整,并对调整后的图像检测模型进行继续训练,直至得到目标图像检测模型。
[0010]根据本公开的一方面,提供了一种目标检测方法,该方法包括:
[0011]获取当前时刻的待检测N个视角图像,并提取所述待检测N个视角图像的N个多层图像特征图;
[0012]基于所述N个多层图像特征图进行深度估计,得到N个深度特征图;
[0013]将所述N个多层图像特征图和所述N个深度特征图输入目标图像检测模型中,由所述目标图像检测模型基于所述N个多层图像特征图和所述N个深度特征图和模型上一次的BEV特征图进行注意力机制,得到目标BEV特征图;
[0014]对目标BEV特征图进行目标检测,得到目标检测结果;
[0015]其中,所述目标图像检测模型为采用如第一方面实施例的图像检测模型的训练方法训练得到。
[0016]本公开可以提高图像检测效率以及准确率、提升特征空间转换的准确性,将多视
角图像从不同的图像空间映射到统一的BEV空间的过程中引入了深度的信息,能够提升特征空间转换的准确性,在BEV空间下进行准确且高效的3D目标检测。
[0017]根据本公开的另一方面,提供了一种图像检测模型的训练装置,包括:
[0018]特征图获取模块,用于对N个视角图像进行特征提取,得到N个多层图像特征图,并基于N个多层图像特征图进行深度估计,得到N个深度特征图,N为正整数;
[0019]训练模块,用于基于N个多层图像特征图、N个深度特征图和第l次训练输出的鸟瞰视角BEV特征图l,对图像检测模型进行第l+1次训练,输出BEV特征图l+1和目标检测结果,l为正整数;
[0020]调整模块,用于根据深度特征图和目标检测结果,对图像检测模型进行模型参数调整,并对调整后的图像检测模型进行继续训练,直至得到目标图像检测模型。
[0021]根据本公开的另一方面,提供了一种目标检测装置,包括:
[0022]提取模块,用于获取当前时刻的待检测N个视角图像,并提取待检测N个视角图像的N个多层图像特征图;
[0023]深度估计模块,用于基于N个多层图像特征图进行深度估计,得到N个深度特征图;
[0024]获取模块,用于将N个多层图像特征图和N个深度特征图输入目标图像检测模型中,由目标图像检测模型基于N个多层图像特征图和N个深度特征图和模型上一次的BEV特征图进行注意力机制,得到目标BEV特征图;
[0025]目标检测模块,用于对目标BEV特征图进行目标检测,得到目标检测结果;
[0026]其中,目标图像检测模型为采用如图像检测模型的训练装置训练得到。
[0027]根据本公开的另一方面,提供了一种电子设备,包括至少一个处理器,以及
[0028]与至少一个处理器通信连接的存储器;其中,
[0029]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一个方面实施例的图像检测模型的训练方法或第二个方面实施例的目标检测方法。
[0030]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开第一个方面实施例的图像检测模型的训练方法或第二个方面实施例的目标检测方法。
[0031]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开第一个方面实施例的图像检测模型的训练方法或第二个方面实施例的目标检测方法。
[0032]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0033]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0034]图1是根据本公开一个实施例的图像检测模型的训练方法的流程图;
[0035]图2是根据本公开一个实施例的图像检测模型的训练方法的流程图;
[0036]图3是根据本公开一个实施例的图像检测模型的训练方法的流程图;
[0037]图4是根据本公开一个实施例的图像检测模型的训练方法的示意图;
[0038]图5是根据本公开一个实施例的图像检测模型的训练方法的示意图;
[0039]图6是根据本公开一个实施例的目标检测方法的流程图;
[0040]图7是根据本公开一个实施例的图像检测模型的训练装置的结构图;
[0041]图8是根据本公开一个实施例的目标检测装置的结构图;
[0042]图9是用来实现本公开实施例的图像检测模型的训练方法的电子设备的框图。
具体实施方式
[0043]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0044]本公开实施例涉及计算机视觉、深度学习等人本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像检测模型的训练方法,其中,所述方法包括:对N个视角图像进行特征提取,得到N个多层图像特征图,并基于所述N个多层图像特征图进行深度估计,得到N个深度特征图,所述N为正整数;基于所述N个多层图像特征图、所述N个深度特征图和第l次训练输出的鸟瞰视角BEV特征图l,对图像检测模型进行第l+1次训练,输出BEV特征图l+1和目标检测结果,所述l为正整数;根据所述深度特征图和所述目标检测结果,对所述图像检测模型进行模型参数调整,并对调整后的图像检测模型进行继续训练,直至得到目标图像检测模型。2.根据权利要求1所述的方法,其中,所述基于所述N个多层图像特征图、所述N个深度特征图和第l次训练输出的鸟瞰视角BEV特征图l,对图像检测模型进行第l+1次训练,输出BEV特征图l+1和目标检测结果,包括:由所述图像检测模型中的注意力机制网络对所述N个多层图像特征图、所述N个深度特征图和所述BEV特征图l进行注意力机制,得到所述BEV特征图l+1;由所述图像检测模型中的目标检测网络,对所述BEV特征图l+1进行目标检测,得到所述目标检测结果。3.根据权利要求2所述的方法,其中,所述由所述图像检测模型中的注意力机制网络对所述N个多层图像特征图、所述N个估计深度图和所述BEV特征图l进行注意力机制,得到所述BEV特征图l+1,包括:确定从激光雷达坐标系向图像坐标系的转换矩阵;基于所述转换矩阵,确定所述BEV特征图l对应的T个查询向量可投影至的目标图像,其中,所述目标图像为所述多视角图像中的n个图像,所述n为整数,且1≤n≤N,所述T为正整数;确定所述目标图像对应的每层图像特征图的值向量和键向量;对所述查询向量和所述每层图像特征图的值向量和键向量进行逐个像素位置的多头全局注意力机制,得到所述BEV特征图l+1。4.根据权利要求3所述的方法,其中,所述对所述查询向量和所述每层图像特征图的值向量和键向量进行逐个像素位置的多头全局注意力机制,得到所述BEV特征图l+1,包括:对所述T个查询向量中的查询向量i,根据所述查询向量i和第s层图像特征图的值向量和键向量,得到所述目标图像对应的第s层的第一矩阵,并对每层的所述第一矩阵相加,得到注意力头的第二矩阵;其中,i和s均为整数,且1≤i≤T;根据注意力头的第二矩阵与所述注意力头的权重矩阵,得到所述注意力头的第三矩阵,并对每个所述注意力头的第三矩阵相加,得到所述查询向量i的全局注意力矩阵;对所述T个查询向量的全局注意力矩阵相加,得到所述BEV特征图l+1。5.根据权利要求4所述的方法,其中,所述根据所述查询向量i和第s图像特征图的值向量和键向量,得到所述目标图像对应的第s层的第一矩阵,包括:根据所述目标图像的深度特征图,确定所述目标图像上位置j的第一深度值;根据所述查询向量i中所述位置j的第二深度值和所述第一深度值,确定所述位置j在所述查询向量i维度上的第一权重;根据所述查询向量i、所述位置j在第s层图像特征图上的键、所述位置j的所述权重和
位置j在第s层图像特征图上的值,得到所述目标图像对应的第s层的第一矩阵。6.根据权利要求2所述的方法,其中,所述由所述图像检测模型中的注意力机制网络对所述N个多层图像特征图、所述N个估计深度图和所述BEV特征图l进行注意力机制,得到所述BEV特征图l+1,包括:确定从激光雷达坐标系向图像坐标系的转换矩阵;基于所述转换矩阵,确定所述BEV特征图l对应的T个查询向量投影至目标图像上的投影图像位置;其中,所述目标图像为所述多视角图像中的n个图像,所述n为整数,且1≤n≤N,所述T为正整数;对所述投影图像位置的周围进行采样,得到采样位置;对所述查询向量、每层图像特征图的键向量和所述采样位置进行多头可变形注意力机制,得到所述BEV特征图l+1。7.根据权利要求6所述的方法,其中,所述对所述查询向量、每层图像特征图的键向量和所述采样位置进行多头可变形注意力机制,得到所述BEV特征图l+1,包括:对所述T个查询向量中的查询向量i,根据所述查询向量i、所述采样位置和第s层图像特征图,得到所述采样位置在第s层的第四矩阵;对每层的第四矩阵相加,得到注意力头的第五矩阵;根据注意力头的第五矩阵与所述注意力头的权重矩阵,得到所述注意力头的第六矩阵,并对每个所述注意力头的第六矩阵相加,得到所述查询向量i的可变形注意力矩阵;对所述T个查询向量的可变形注意力矩阵相加,得到所述BEV特征图l+1。8.根据权利要求7所述的方法,其中,所述根据所述查询向量i、所述采样位置和第s层图像特征图,得到所述采样位置在第s层的第四矩阵,包括:根据所述目标图像的深度特征图,确定所述采样位置f的第三深度值;根据所述查询向量i中所述采样位置f的第四深度值和所述第三深度值,确定所述采样位置f在所述查询向量i维度上的第二权重;对所述查询向量i的第一坐标进行坐标拉伸,得到第s层尺寸下的第二坐标;根据所述第二坐标、所述采样位置f的所述第二权重和所述第s层图像特征图上的值,得到所述采样位置在第s层的第四矩阵。9.根据权利要求1

8中任一项所述的方法,其中,所述根据所述深度特征图和所述目标检测结果,对所述图像检测模型进行模型参数调整,包括:获取所述深度特征图和参考深度特征图之间的第一损失函数;获取所述目标检测结果和参考检测结果之间的第二损失函数;根据所述第一损失函数和所述第二损失函数,得到所述图像检测模型的总损失函数;根据所述总损失函数对所述图像检测模型进行模型参数调整。10.一种目标检测方法,其中,包括:获取当前时刻的待检测N个视角图像,并提取所述待检测N个视角图像的N个多层图像特征图;基于所述N个多层图像特征图进行深度估计,得到N个深度特征图;将所述N个多层图像特征图和所述N个深度特征图输入目标图像检测模型中,由所述目标图像检测模型基于所述N个多层图像特征图和所述N个深度特征图和模型上一次的BEV特
征图进行注意力机制,得到目标BEV特征图;对目标BEV特征图进行目标检测,得到目标检测结果;其中,所述目标图像检测模型为采用如权利要求1

9中任一项所述的装置训练得到。11.一种图像检测模型的训练装置,其...

【专利技术属性】
技术研发人员:何叶
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1