训练神经网络及图像识别的方法、装置、设备及介质制造方法及图纸

技术编号:25441042 阅读:39 留言:0更新日期:2020-08-28 22:28
本申请实施例提供一种训练神经网络及图像识别的方法、装置、设备及介质。该方法包括:获取图像样本数据集,该图像样本数据集包括至少一个图像样本数据;将图像样本数据集分别输入多个神经网络,得到多个神经网络中每个神经网络输出的第一预测结果;基于多个第一预测结果,确定多个神经网络在本轮迭代训练的损失函数;基于损失函数,调整多个神经网络的网络参数。

【技术实现步骤摘要】
训练神经网络及图像识别的方法、装置、设备及介质
本申请实施例涉及人工智能
,尤其涉及一种训练神经网络及图像识别的方法、装置、设备及介质。
技术介绍
知识蒸馏是一种通过预先训练好一个教师模型(teacher模型),然后使用teacher模型的输出和训练数据的真实标签得到一个损失函数,再基于这个损失函数去训练学生模型(student模型),使得student模型的结果接近teacher模型的输出结果。在上述学习过程中,常常需要额外训练一个教师模型,并且学生模型的训练效果非常依赖教师模型的优劣。另外,目前知识蒸馏的流程较长,需要多阶段的训练,非常耗费资源。
技术实现思路
本申请实施例提供一种训练神经网络及图像识别的方法、装置、设备及介质,以简化训练流程,提高神经网络的性能。第一方面,本申请实施例提供一种训练神经网络的方法,包括:获取图像样本数据集,所述图像样本数据集包括至少一个图像样本数据;将所述图像样本数据集分别输入多个神经网络,得到所述多个神经网络中每个神经网络输出的第一预测结果;基于多个第一预测结果,确本文档来自技高网...

【技术保护点】
1.一种训练神经网络的方法,其特征在于,包括:/n获取图像样本数据集,所述图像样本数据集包括至少一个图像样本数据;/n将所述图像样本数据集分别输入多个神经网络,得到所述多个神经网络中每个神经网络输出的第一预测结果;/n基于多个第一预测结果,确定所述多个神经网络在本轮迭代训练的损失函数;/n基于所述损失函数,调整所述多个神经网络的网络参数。/n

【技术特征摘要】
1.一种训练神经网络的方法,其特征在于,包括:
获取图像样本数据集,所述图像样本数据集包括至少一个图像样本数据;
将所述图像样本数据集分别输入多个神经网络,得到所述多个神经网络中每个神经网络输出的第一预测结果;
基于多个第一预测结果,确定所述多个神经网络在本轮迭代训练的损失函数;
基于所述损失函数,调整所述多个神经网络的网络参数。


2.根据权利要求1所述的方法,其特征在于,所述基于多个第一预测结果,确定所述多个神经网络在本轮迭代训练的损失函数,包括:
分别确定所述每个神经网络对应的第一损失函数,以及确定第二损失函数;
基于多个所述第一损失函数和所述第二损失函数,确定所述多个神经网络在本轮迭代训练的损失函数。


3.根据权利要求2所述的方法,其特征在于,所述分别确定所述每个神经网络对应的第一损失函数,以及确定第二损失函数,包括:
基于每个第一预测结果和所述图像样本数据集的标签,确定所述每个神经网络的第一损失函数;
基于所述多个第一预测结果,确定第二预测结果;
基于所述第二预测结果和所述图像样本数据集的标签,确定所述第二损失函数。


4.根据权利要求3所述的方法,其特征在于,所述基于所述多个第一预测结果,确定第二预测结果,包括:
将所述多个神经网络的第一损失函数中最小损失函数对应的第一预测结果,确定为所述第二预测结果。


5.根据权利要求3所述的方法,其特征在于,所述基于所述多个第一预测结果,确定第二预测结果,包括:
确定每个第一预测结果的权重;
基于所述权重和对应的第一预测结果,得到所述多个第一预测结果的加权和,并将所述加权和确定为所述第二预测结果;
其中,所述权重为所述第二损失函数取最小值时的权重。


6.根据权利要求3所述的方法,其特征在于,所述第一预测结果包括多个分类结果;
所述基于所述多个第一预测结果,确定第二预测结果,包括:
获取所述多个神经网络的第一预测结果中每个分类结果的最小值;
根据所述每个分类结果的最小值,得到所述第二预测结果。


7.根据权利要求3所述的方法,其特征在于,所述基于所述多个第一预测结果,确定第二预测结果,包括:
获取验证图像数据集,所述验证图像数据集包括至少一个验证图像数据;
基于所述验证图像数据集,确定所述每个神经网络的性能参数;
基于所述性能参数,确定所述每个神经网络的权重,所述性能参数的取值和所述权重的取值呈正相关;
基于所述权重和对应的第一预测结果,得到所述多个第一预测结果的加权和,并将所述加权和确定为所述第二预测结果。


8.根据权利要求1-7任一项所述的方法,其特征在于,输入所述多个神经网络中至少两个神经网络的至少部分图像样本数据不同。


9.根据权利要求8所述的方法,其特征在于,在所述将所述图像样本数据集分别输入多个神经网络之前,所述方法还包括:
对所述图像样本数据集中的至少部分图像样本数据分别进行数据增强处理,得到多个图像样本数据集,并将所述多个图像样本数据集分别作为所...

【专利技术属性】
技术研发人员:于志鹏吴一超梁鼎郭秋杉
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1