一种鸟瞰图3D检测模型的训练方法及系统技术方案

技术编号:38257439 阅读:16 留言:0更新日期:2023-07-27 10:19
本申请提供一种鸟瞰图3D检测模型的训练方法及系统,基于对比自监督学习的方式,将视频中在时间序列上相邻的两个视频帧分别送入第一3D检测模型和第二3D检测模型,进行第一3D检测模型的预训练,以迭代的方式更新第一3D检测模型的模型参数;之后,在经过预训练的第一3D检测模型基础上,通过较少的有标签样本,进行对第一3D检测模型的有监督训练,实现对第一3D检测模型的模型参数进一步微调,即可得到训练后的第一3D检测模型。本实施例提供的模型训练方法,能够减少对人工标注的需求,降低人工成本。成本。成本。

【技术实现步骤摘要】
一种鸟瞰图3D检测模型的训练方法及系统


[0001]本申请涉及自动驾驶
,具体而言,涉及一种鸟瞰图3D检测模型的训练方法及系统。

技术介绍

[0002]自动驾驶作为新一代智能汽车的关键技术,已经被越来越多厂商所重视。一般而言,整个自动驾驶系统由三大模块组成:感知融合模块、决策规划模块、控制模块,其中感知融合作为另外两个模块的前置模块,其感知的精度将直接决定整个自动驾驶系统的性能。
[0003]当前感知模块的技术已经不限于传统的单前视摄像头(Forward Camera)配置,各大厂商都开始利用环绕车身的多个摄像头进行360度无死角的环绕感知,最常见的在前视、后视、左前、左后、右前、右后各设置一个,这六个摄像头对不同视角的图像信息进行采集,然后将图像信息送入环绕感知模型,后者直接输出鸟瞰图(BEV:BirdEyes View)语义信息。这里所论述的鸟瞰图特指从本车正上方俯视观察获取的鸟瞰图。鸟瞰图语义信息指的是鸟瞰图的语义分割,其分割元素按照需求进行定义,包括静目标,如车道线和可行驶区域,包括动目标,如车辆和行人等。
[0004]然而,现有的3D检测任务相较于以往常规的视觉任务(如分类、2D检测等)更加复杂且容易出现噪声,因此,需要大量的人工标注生成有标签的训练集,导致人工成本过高。

技术实现思路

[0005]本申请实施例的目的在于提供一种鸟瞰图3D检测模型的训练方法及系统,用以解决现有的3D检测任务相较于以往常规的视觉任务(如分类、2D检测等)更加复杂且容易出现噪声,因此,需要大量的人工标注生成有标签的训练集,导致人工成本过高的问题。
[0006]本申请实施例提供的一种鸟瞰图3D检测模型的训练方法,包括:
[0007]将无标签的相邻时序的两个视频帧分别送入相同结构的第一3D检测模型和第二3D检测模型,并分别得到第一BEV特征和第二BEV特征;其中,第一3D检测模型设置为用于进行训练学习,第二3D检测模型设置为动量更新或参数共享;
[0008]根据第一BEV特征和第二BEV特征进行相似度比较并计算损失函数,通过反向传播更新第一3D检测模型的模型参数,得到预训练后的第一3D检测模型;
[0009]将有标签的视频帧送入预训练后的第一3D检测模型,继续训练,得到训练后的第一3D检测模型。
[0010]上述技术方案中,基于对比自监督学习的方式,将视频中在时间序列上相邻的两个视频帧分别送入第一3D检测模型和第二3D检测模型,进行第一3D检测模型的预训练,以迭代的方式更新第一3D检测模型的模型参数;之后,在经过预训练的第一3D检测模型基础上,通过较少的有标签样本,进行对第一3D检测模型的有监督训练,实现对第一3D检测模型的模型参数进一步微调,即可得到训练后的第一3D检测模型。本实施例提供的模型训练方法,能够减少对人工标注的需求,降低人工成本。
[0011]在一些可选的实施方式中,视频帧的获取,包括:
[0012]通过多个相机,分别得到相同鸟瞰视角的多个第一特征张量;
[0013]对所有特征张量进行融合得到基于鸟瞰视角的鸟瞰特征张量,并作为视频帧。
[0014]若是对视频帧进行人工标注,就得到了有标签的视频帧,有标签的视频帧可以用于后续的有监督训练。
[0015]在一些可选的实施方式中,视频帧的获取,还包括:
[0016]通过多个相机和多个雷达,分别得到相同鸟瞰视角的多个第一特征张量和多个第二特征张量;
[0017]对所有特征张量进行融合得到基于鸟瞰视角的鸟瞰特征张量,并作为视频帧。
[0018]本实施例中具体包括如下步骤:
[0019]多个相机按预设拍摄频率对自车周围环境进行图像拍摄得到对应的图像,并根据图像的实时拍摄时间生成对应的时间戳;按预先分配的拍摄角度对各个相机进行顺序编号生成对应的相机编号;按相机编号的顺序,对时间戳匹配的多个图像进行排序生成对应的图像序列;为图像序列分配一个对应的时间戳作为图像时间戳;使用BEVFormer模型基于预设的以自车为中心的鸟瞰栅格图尺寸H
×
W,对图像序列进行图像特征提取和鸟瞰栅格特征分割处理得到形状为H
×
W
×
C1的鸟瞰栅格特征图;将鸟瞰栅格特征图作为图像特征张量;图像特征张量的形状为H
×
W
×
C1,H为预设的鸟瞰栅格图深度、W为预设的鸟瞰栅格图宽度、C1为鸟瞰栅格图的栅格特征维度。
[0020]多个雷达按预设扫描频率对自车周围环境进行雷达扫描得到对应的激光雷达点云;并根据本次扫描的起始时间生成对应的激光雷达时间戳;按预先分配的安装角度对各个激光雷达进行顺序编号生成对应的激光雷达编号;按激光雷达编号的顺序,对激光雷达时间戳匹配的多个激光雷达点云进行点云融合处理生成对应的融合点云;为融合点云分配一个对应的时间戳作为点云时间戳;基于预设的以自车为中心的鸟瞰栅格图尺寸H
×
W和预设的点云体素高度Z构建以自车为中心的点云体素空间,并将融合点云中落入形状为H
×
W
×
Z的点云体素空间的部分点云提取出来作为对应的融合点云对融合点云按点云体素空间中的各个单位体素进行体素点云切割得到H
×
W
×
Z组体素点云,对各组体素点云进行降采样和体素特征编码生成对应的体素特征,由得到的H
×
W
×
Z个体素特征构成点云特征张量;点云特征张量的形状为H
×
W
×
Z
×
C2,H为预设的鸟瞰栅格图深度、W为预设的鸟瞰栅格图宽度、Z为预设的点云体素高度、C2为体素特征的特征维度。
[0021]最后,将图像时间戳、点云时间戳满足预设的时间戳匹配规则的图像特征张量、点云特征张量作为时间匹配的待融合张量纳入到一组对应的待融合张量集合中;并基于预设的以自车为中心的鸟瞰栅格图尺寸H
×
W对各个待融合张量集合中的两类特征张量进行特征融合处理得到对应的鸟瞰特征张量。
[0022]在一些可选的实施方式中,根据第一BEV特征和第二BEV特征进行相似度比较并计算损失函数,包括:
[0023]根据第一BEV特征和第二BEV特征,通过相机运动估计进行对齐后,利用L1

Loss进行相似度比较并计算损失函数L1:
[0024]L1=|Y_1

Y_2|
[0025]其中,Y_1为第一BEV特征,Y_2为第二BEV特征。
[0026]在一些可选的实施方式中,根据第一BEV特征和第二BEV特征进行相似度比较并计算损失函数,包括:
[0027]根据第一BEV特征和第二BEV特征,通过相机运动估计进行对齐后,利用MSE

Loss进行相似度比较并计算损失函数MSE:
[0028]MSE=||Y_1

Y_2||^2<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种鸟瞰图3D检测模型的训练方法,其特征在于,包括:将无标签的相邻时序的两个视频帧分别送入相同结构的第一3D检测模型和第二3D检测模型,并分别得到第一BEV特征和第二BEV特征;其中,所述第一3D检测模型设置为用于进行训练学习,所述第二3D检测模型设置为动量更新或参数共享;根据所述第一BEV特征和第二BEV特征进行相似度比较并计算损失函数,通过反向传播更新第一3D检测模型的模型参数,得到预训练后的第一3D检测模型;将有标签的视频帧送入预训练后的第一3D检测模型,继续训练,得到训练后的第一3D检测模型。2.如权利要求1所述的方法,其特征在于,所述视频帧的获取,包括:通过多个相机,分别得到相同鸟瞰视角的多个第一特征张量;对所有特征张量进行融合得到基于鸟瞰视角的鸟瞰特征张量,并作为所述视频帧。3.如权利要求1所述的方法,其特征在于,所述视频帧的获取,还包括:通过多个相机和多个雷达,分别得到相同鸟瞰视角的多个第一特征张量和多个第二特征张量;对所有特征张量进行融合得到基于鸟瞰视角的鸟瞰特征张量,并作为所述视频帧。4.如权利要求1所述的方法,其特征在于,所述根据所述第一BEV特征和第二BEV特征进行相似度比较并计算损失函数,包括:根据所述第一BEV特征和第二BEV特征,通过相机运动估计进行对齐后,利用L1

Loss进行相似度比较并计算损失函数L1:L1=|Y_1

Y_2|其中,Y_1为第一BEV特征,Y_2为第二BEV特征。5.如权利要求1所述的方法,其特征在于,所述根据所述第一BEV特征和第二BEV特征进行相似度比较并计算损失函数,包括:根据所述第一BEV特征和第二BEV特征,通过相机运动估计进行对齐后,利用MSE

Loss进行相似度比较并计算损失函数MSE:MSE=||Y_1

Y_2||^2其中,Y...

【专利技术属性】
技术研发人员:刘建伟
申请(专利权)人:爱芯元智半导体上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1