模型预训练方法、模型训练方法、对象处理方法及装置制造方法及图纸

技术编号:38820654 阅读:6 留言:0更新日期:2023-09-15 19:59
本公开公开了模型预训练方法、模型训练方法、对象处理方法及装置,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习技术领域,可用于自动驾驶、智能交通等场景。具体实现方案为:将第一图像样本输入图像特征提取网络,得到图像特征;将第一点云样本输入点云特征提取网络,得到点云图像特征;从第一图像样本中确定多个目标点;将图像特征中与多个目标点对应的多个第一图像点特征映射到鸟瞰图空间,得到多个第二图像点特征;将点云图像特征中与多个目标点对应的多个第一点云特征映射到鸟瞰图空间,得到多个第二点云特征;利用多个第二图像点特征和多个第二点云特征,对图像特征提取网络和点云特征提取网络进行对比训练。网络进行对比训练。网络进行对比训练。

【技术实现步骤摘要】
模型预训练方法、模型训练方法、对象处理方法及装置


[0001]本公开涉及人工智能
,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习
,可用于自动驾驶、智能交通等场景,具体涉及一种模型预训练方法、模型训练方法、对象处理方法、装置、电子设备及存储介质。

技术介绍

[0002]自监督学习可以是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。通过自监督训练学到的表征相较于有监督训练,具有更好的泛化能力,在迁移到下游任务时,往往能够取得更好的效果。

技术实现思路

[0003]本公开提供了一种模型预训练方法、模型训练方法、对象处理方法、装置、电子设备及存储介质。
[0004]根据本公开的一方面,提供了一种模型预训练方法,包括:将第一图像样本输入图像特征提取网络,得到图像特征;将第一点云样本输入点云特征提取网络,得到点云图像特征,其中,上述第一点云样本和上述第一图像样本是针对同一对象在同一时刻采集得到;从上述第一图像样本中确定多个目标点;将上述图像特征中与上述多个目标点对应的多个第一图像点特征映射到鸟瞰图空间,得到多个第二图像点特征;将上述点云图像特征中与上述多个目标点对应的多个第一点云特征映射到上述鸟瞰图空间,得到多个第二点云特征;以及利用上述多个第二图像点特征和上述多个第二点云特征,对上述图像特征提取网络和上述点云特征提取网络进行对比训练。
[0005]根据本公开的另一方面,提供了一种模型训练方法,包括:将第三图像样本输入图像处理模型,得到第一输出特征,其中,上述图像处理模型包括经预训练的图像特征提取网络和图像处理网络;以及基于上述第三图像样本的标签和上述第一输出特征,得到第一损失,并基于上述第一损失,训练上述图像处理模型。
[0006]根据本公开的另一方面,提供了一种模型训练方法,包括:将第三点云样本输入点云数据处理模型,得到第二输出特征,其中,上述点云数据处理模型包括经预训练的点云特征提取网络和点云数据处理网络;以及基于上述第三点云样本的标签和上述第二输出特征,得到第二损失,并基于上述第二损失,训练上述点云数据处理模型。
[0007]根据本公开的另一方面,提供了一种模型训练方法,包括:将训练样本包括的第四图像样本输入对象处理模型的第一骨干网络,得到第三输出特征,其中,上述第一骨干网络为经预训练的图像特征提取网络;将上述训练样本包括的第四点云样本输入上述对象处理模型的第二骨干网络,得到第四输出特征,其中,上述第二骨干网络为经预训练的点云特征提取网络;对上述第三输出特征和上述第四输出特征进行特征融合,得到融合特征;将上述融合特征输入上述对象处理模型的对象处理网络,得到第五输出特征;以及基于上述训练
样本的标签和上述第五输出特征,得到第三损失,并基于上述第三损失,训练上述对象处理模型。
[0008]根据本公开的另一方面,提供了一种对象处理方法,包括:将包括目标对象的待处理图像输入图像处理模型,得到图像处理结果。
[0009]根据本公开的另一方面,提供了一种对象处理方法,包括:将包括目标对象的待处理点云输入点云数据处理模型,得到点云数据处理结果。
[0010]根据本公开的另一方面,提供了一种对象处理方法,包括:将包括目标对象的待处理图像和待处理点云输入对象处理模型,得到对象处理结果。
[0011]根据本公开的另一方面,提供了一种模型预训练装置,包括:第一输入模块,用于将第一图像样本输入图像特征提取网络,得到图像特征;第二输入模块,用于将第一点云样本输入点云特征提取网络,得到点云图像特征,其中,上述第一点云样本和上述第一图像样本是针对同一对象在同一时刻采集得到;第一确定模块,用于从上述第一图像样本中确定多个目标点;第一映射模块,用于将上述图像特征中与上述多个目标点对应的多个第一图像点特征映射到鸟瞰图空间,得到多个第二图像点特征;第二映射模块,用于将上述点云图像特征中与上述多个目标点对应的多个第一点云特征映射到上述鸟瞰图空间,得到多个第二点云特征;以及第一训练模块,用于利用上述多个第二图像点特征和上述多个第二点云特征,对上述图像特征提取网络和上述点云特征提取网络进行对比训练。
[0012]根据本公开的另一方面,提供了一种模型训练装置,包括:第三输入模块,用于将第三图像样本输入图像处理模型,得到第一输出特征,其中,上述图像处理模型包括经预训练的图像特征提取网络和图像处理网络;以及第二训练模块,用于基于上述第三图像样本的标签和上述第一输出特征,得到第一损失,并基于上述第一损失,训练上述图像处理模型。
[0013]根据本公开的另一方面,提供了一种模型训练装置,包括:第四输入模块,用于将第三点云样本输入点云数据处理模型,得到第二输出特征,其中,上述点云数据处理模型包括经预训练的点云特征提取网络和点云数据处理网络;以及第三训练模块,用于基于上述第三点云样本的标签和上述第二输出特征,得到第二损失,并基于上述第二损失,训练上述点云数据处理模型。
[0014]根据本公开的另一方面,提供了一种模型训练装置,包括:第五输入模块,用于将训练样本包括的第四图像样本输入对象处理模型的第一骨干网络,得到第三输出特征,其中,上述第一骨干网络为经预训练的图像特征提取网络;第六输入模块,用于将上述训练样本包括的第四点云样本输入上述对象处理模型的第二骨干网络,得到第四输出特征,其中,上述第二骨干网络为经预训练的点云特征提取网络;特征融合模块,用于对上述第三输出特征和上述第四输出特征进行特征融合,得到融合特征;第七输入模块,用于将上述融合特征输入上述对象处理模型的对象处理网络,得到第五输出特征;以及第四训练模块,用于基于上述训练样本的标签和上述第五输出特征,得到第三损失,并基于上述第三损失,训练上述对象处理模型。
[0015]根据本公开的另一方面,提供了一种对象处理装置,包括:第一处理模块,用于将包括目标对象的待处理图像输入图像处理模型,得到图像处理结果。
[0016]根据本公开的另一方面,提供了一种对象处理装置,包括:第二处理模块,用于将
包括目标对象的待处理点云输入点云数据处理模型,得到点云数据处理结果。
[0017]根据本公开的另一方面,提供了一种对象处理装置,包括:第三处理模块,用于将包括目标对象的待处理图像和待处理点云输入对象处理模型,得到对象处理结果。
[0018]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
[0019]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
[0020]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型预训练方法,包括:将第一图像样本输入图像特征提取网络,得到图像特征;将第一点云样本输入点云特征提取网络,得到点云图像特征,其中,所述第一点云样本和所述第一图像样本是针对同一对象在同一时刻采集得到;从所述第一图像样本中确定多个目标点;将所述图像特征中与所述多个目标点对应的多个第一图像点特征映射到鸟瞰图空间,得到多个第二图像点特征;将所述点云图像特征中与所述多个目标点对应的多个第一点云特征映射到所述鸟瞰图空间,得到多个第二点云特征;以及利用所述多个第二图像点特征和所述多个第二点云特征,对所述图像特征提取网络和所述点云特征提取网络进行对比训练。2.根据权利要求1所述的方法,其中,所述从所述第一图像样本中确定多个目标点,包括:基于所述第一图像样本的形状特征信息,从所述第一图像样本中确定至少一个关键点;对于每个所述关键点,以所述关键点为中心确定关键区域;以及确定所述关键区域内包含的点为所述目标点。3.根据权利要求1所述的方法,其中,所述将所述图像特征中与所述多个目标点对应的多个第一图像点特征映射到鸟瞰图空间,得到多个第二图像点特征,包括:利用深度估计模型,确定所述多个目标点各自的深度分布信息;以及基于所述多个目标点各自的深度分布信息,将与所述多个目标点对应的多个第一图像点特征映射到所述鸟瞰图空间,得到所述多个第二图像点特征。4.根据权利要求3所述的方法,其中,所述利用深度估计模型,确定所述多个目标点各自的深度分布信息,包括:将所述第一图像样本输入所述深度估计模型,得到深度分布特征;以及从所述深度分布特征中确定所述多个目标点各自的深度分布信息。5.根据权利要求3或4所述的方法,还包括:以第二图像样本作为训练样本,以第二点云样本包括的深度信息作为标签,训练第一初始模型,以得到所述深度估计模型,其中,所述第二点云样本和所述第二图像样本是针对同一对象在同一时刻采集得到。6.根据权利要求3所述的方法,其中,所述基于所述多个目标点各自的深度分布信息,将与所述多个目标点对应的多个第一图像点特征映射到所述鸟瞰图空间,得到所述多个第二图像点特征,包括:将与所述多个目标点对应的多个第一图像点特征和所述多个目标点各自的深度分布信息进行融合,得到多个伪点云特征;利用与所述第一图像样本相关的第一相机内外参矩阵,将所述图像空间中的所述多个伪点云特征映射到所述鸟瞰图空间,得到多个第三图像点特征;以及将所述多个第三图像点特征中具有同一高度值的第三图像点特征进行融合,得到所述多个第二图像点特征。
7.根据权利要求1所述的方法,其中,所述将所述点云图像特征中与所述多个目标点对应的多个第一点云特征映射到所述鸟瞰图空间,得到多个第二点云特征,包括:利用与所述第一点云样本相关的第二相机内外参矩阵,将点云空间中的所述多个第一点云特征映射到所述鸟瞰图空间,得到多个第三点云特征;以及将所述多个第三点云特征中具有同一高度值的第三点云特征进行融合,得到所述多个第二点云特征。8.根据权利要求1所述的方法,其中,所述利用所述多个第二图像点特征和所述多个第二点云特征,对所述图像特征提取网络和所述点云特征提取网络进行对比训练,包括:基于所述多个第二图像点特征和所述多个第二点云特征,生成多个样本对,其中,所述样本对包括一个所述第二图像点特征和一个所述第二点云特征;基于与所述样本对包括的所述第二图像点特征和所述第二点云特征各自对应的目标点,将所述多个样本对分为多个正样本对和多个负样本对;基于所述多个正样本对和所述多个负样本对,计算得到损失值;以及利用所述损失值分别调整所述图像特征提取网络的模型参数和所述点云特征提取网络的模型参数。9.根据权利要求8所述的方法,其中,所述基于与所述样本对包括的所述第二图像点特征和所述第二点云特征各自对应的目标点,将所述多个样本对分为多个正样本对和多个负样本对,包括:对于每个所述样本对,在与所述样本对包括的第二图像点特征对应的目标点和与所述样本对包括的第二点云特征对应的目标点一致的情况下,确定所述样本对为所述正样本对;以及在与所述样本对包括的第二图像点特征对应的目标点和与所述样本对包括的第二点云特征对应的目标点不一致的情况下,确定所述样本对为所述负样本对。10.根据权利要求1所述的方法,其中,所述将第一图像样本输入图像特征提取网络,得到图像特征,包括:将所述第一图像样本输入所述图像特征提取网络,得到所述图像特征提取网络包括的多个中间层各自的输出特征;以及从所述多个中间层各自的输出特征中确定所述图像特征。11.根据权利要求1~10中任一项所述的方法,其中,所述图像特征提取网络的中间层为下采样网络层;所述方法还包括:确定所述多个目标点各自在图像空间的第一坐标信息;基于所述图像特征提取网络中与所述图像特征相关的中间层的下采样倍率,对所述多个目标点各自的第一坐标信息进行下采样处理,得到所述多个目标点各自在所述图像空间的第二坐标信息;以及基于所述多个目标点各自在所述图像空间的第二坐标信息,从所述图像特征包括的多个图像点特征中确定与所述多个目标点对应的多个第一图像点特征。12.根据权利要求11所述的方法,还包括:基于与所述第一图像样本相关的第一相机内外参矩阵和与所述第一点云样本相关的
第二相机内外参矩阵,将所述多个目标点各自在所述图像空间的第二坐标信息映射至点云空间,得到所述多个目标点各自在所述点云空间的第三坐标信息;以及基于所述多个目标点各自在所述点云空间的第三坐标信息,从所述点云图像特征包括的多个点云特征中确定与所述多个目标点对应的多个第一点云特征。13.根据权利要求11所述的方法,其中,从深度分布特征中确定所述多个目标点各自的深度分布信息,包括:基于所述多个目标点各自在所述图像空间的第一坐标信息,从所述深度分布特征包括的多个图像点特征各自的深度分布信息中确定所述多个目标点各自的深度分布信息。14.根据权利要求1所述的方法,其中,所述第一图像样本是由图像采集设备采集得到,所述第一点云样本是由雷达设备采集得到;所述第一图像样本包括由多个所述图像采集设备针对同一对象在同一时刻采集的图像,多个所述图像采集设备各自具有不同的相机视角。15.一种模型训练方法,包括:将第三图像样本输入图像处理模型,得到第一输出特征,其中,所述图像处理模型包括经预训...

【专利技术属性】
技术研发人员:王学宽顾闻张伟谭啸
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1