【技术实现步骤摘要】
神经网络模型训练、目标检测方法、装置、设备以及介质
[0001]本公开涉及计算机
,具体而言,涉及一种神经网络模型训练、目标检测方法、装置、设备以及介质。
技术介绍
[0002]随着人工智能的发展,对神经网络模型的要求也就越来越高。例如,针对基于Transformer的目标检测模型存在收敛速度慢的问题。现有的模型训练方法为学习利于分类的表征(例如,对比学习),而对于模型的定位能力的训练过程仍然存在收敛速度慢,精度不足的问题。因此,如何加快目标检测模型的训练速度,提升目标检测模型的精度成为亟需解决的问题。
技术实现思路
[0003]本公开实施例至少提供一种神经网络模型训练、目标检测方法、装置、设备以及介质。
[0004]第一方面,本公开实施例提供了一种神经网络模型训练方法,该方法包括:获取多个目标图像组;其中,每个目标图像组包含对应原始图像的多个视角图像,每个视角图像均包含该原始图像中的目标对象;确定每个所述目标图像组中与每个编解码器对应的两个视角图像;基于每个所述编解码器对相应两个视角图像的第一 ...
【技术保护点】
【技术特征摘要】
1.一种神经网络模型训练方法,其特征在于,应用于包含多个编解码器的Transformer模型,包括:获取多个目标图像组;其中,每个目标图像组包含对应原始图像的多个视角图像,每个视角图像均包含该原始图像中的目标对象;确定每个所述目标图像组中与每个编解码器对应的两个视角图像;基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理,得到每个所述编解码器的预测结果;每个预测结果包括:第二图像中目标对象的预测包围框和第一图像中目标对象的预测特征信息;基于全部所述编解码器的预测结果训练Transformer模型,并基于训练后的Transformer模型训练目标网络模型。2.根据权利要求1所述的方法,其特征在于,所述获取每个所述目标图像组,包括:获取每个所述目标图像组对应的原始图像,并在所述原始图像中截取包含所述目标对象的初始图像;在所述初始图像中确定多个初始包围框,其中,任意两个初始包围框之间的交并比大于预设阈值;截取所述初始图像中位于每个所述初始包围框中的图像,得到多个视角图像,并基于所述多个视角图像确定所述目标图像组。3.根据权利要求1或2所述的方法,其特征在于,所述基于每个所述编解码器对相应两个视角图像的第一图像中位于目标对象的包围框内的局部图像特征和该两个视角图像的第二图像的整体图像特征进行处理,得到每个所述编解码器的预测结果,包括:通过每个所述编解码器的编码器对相应的第二图像的整体图像特征进行处理,得到第一编码图像特征;将所述第一编码图像特征和相应的局部图像特征输入至该编解码器的解码器中进行处理,得到该编解码器的预测结果。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:通过基础骨干网络提取所述第一图像的图像特征,得到第一初始图像特征,以及通过所述基础骨干网络提取所述第二图像的图像特征,得到第二初始图像特征;基于所述第一初始图像特征确定所述局部图像特征,并基于所述第二初始特征图像确定所述整体图像特征。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一初始图像特征确定所述局部图像特征,包括:确定所述第一初始图像特征中位于所述目标对象的包围框内的图像特征,得到第一子图像特征;截取所述第一图像中位于所述目标对象的包围框内的图像,并将截取到的图像确定为第二子图像特征;将所述第一子图像特征和所述第二子图像特征进行合并,得到所述局部图像特征。6.根据权利要求4或5所述的方法,其特征在于,所述基于全部所述编解码器的预测结果训练Transformer模型,包括:
基于所述预测结果和初始图像特征确定每个所述编解码器的目标损失函数值;其中,所述初始图像特征包括:所述第一初始图像特征和所述第二初始图像特征;基于各个所述编解码器的目标损失函数值迭代调整所述Transformer模型中的模型参数,得...
【专利技术属性】
技术研发人员:黄耿石,陈泽人,滕家宁,李威,邵婧,盛律,
申请(专利权)人:深圳市商汤科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。