神经网络训练方法、目标识别方法、装置和电子设备制造方法及图纸

技术编号:31372421 阅读:19 留言:0更新日期:2021-12-15 10:14
本发明专利技术提供了一种神经网络训练方法、目标识别方法、装置和电子设备,该神经网络训练方法包括:获取预先训练的教师网络,教师网络包括多个教师子网络,多个教师子网络的层数相同,通道数不同;按照通道数由少到多的顺序,应用教师网络中的教师子网络,依次对初始学生网络进行蒸馏训练,得到目标学生网络。通过本发明专利技术实施例提供的神经网络训练方法,将教师网络对学生网络的训练分为多个训练周期,使学生网络能够循序渐进地进行知识提取,可以有效提升学生网络的训练效率,进而提升学生网络的预测性能和识别精度。性能和识别精度。性能和识别精度。

【技术实现步骤摘要】
神经网络训练方法、目标识别方法、装置和电子设备


[0001]本专利技术涉及机器学习
,尤其是涉及一种神经网络训练方法、目标识别方法、装置和电子设备。

技术介绍

[0002]近年来,深度神经网络在计算机视觉(例如AlexNet模型)、自然语言处理(例如BERT模型)以及强化学习(例如DQN模型)等人工智能领域取得了显著的进步。为了使得深度神经网络取得更好的预测效果,现有的技术通常会将深度神经网络设计得更深以及参数量设计得更大,如计算机视觉中的ResNet

1202以及NLP中的GBT

3包含了175M的参数。在这种情况下,虽然深度神经网络取得了更高的性能,却需要较大的算力以及模型存储能力,这对深度神经网络在真实环境下的实际应用造成了巨大的阻碍,特别是智能手机,微型处理器等设备。为了进一步推广深度神经网络,如何设计出更加紧凑高效的深度神经网络,以及缩小紧凑高效小模型和高性能大模型之间的性能差距显得尤其重要。
[0003]知识蒸馏是目前深度神经网络研究领域一种具有代表性的提升紧凑高效小模型的有效方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练方法,其特征在于,所述方法包括:获取预先训练的教师网络,所述教师网络包括多个教师子网络,所述多个教师子网络的层数相同,通道数不同;按照通道数由少到多的顺序,应用所述教师网络中的教师子网络,依次对初始学生网络进行蒸馏训练,得到目标学生网络。2.根据权利要求1所述的方法,其特征在于,所述教师网络的任意相邻的两个所述教师子网络中,通道数多的所述教师子网络包含通道数少的所述教师子网络的全部网络参数。3.根据权利要求1或2所述的方法,其特征在于,按照通道数由少到多的顺序,应用所述教师网络中的教师子网络,依次对初始学生网络进行蒸馏训练,得到目标学生网络的步骤,包括:按照通道数由少到多的顺序,应用所述教师网络中的教师子网络,依次对所述初始学生网络进行预设阶段数个阶段的蒸馏训练,得到目标学生网络,其中,所述预设阶段数等于所述教师子网络的总个数。4.根据权利要求1或2所述的方法,其特征在于,按照通道数由少到多的顺序,应用所述教师网络中的教师子网络,依次对初始学生网络进行蒸馏训练,得到目标学生网络的步骤,包括:以通道数由少到多的顺序,依次从所述教师网络中选择教师子网络作为当前阶段的训练网络,对于每个所述训练网络,均执行以下操作:应用所述训练网络对所述初始学生网络进行蒸馏训练,得到当前阶段训练完成的初始学生网络;将当前阶段训练完成的初始学生网络作为下一阶段训练的初始学生网络,继续训练,直到所有教师子网络对应的训练均完成,得到目标学生网络。5.根据权利要求1

4任一项所述的方法,其特征在于,所述初始学生网络进行蒸馏训练的过程中,所述学生网络的学习率衰减策略保持线性衰减策略或余弦衰减策略不变。6.根据权利要求1所述的方法,其特征在于,获取预先训练的教师网络的步骤,包括:构建包含多个教师子网络的教师网络,其中,所述多个教师子网络层数相同,通道数不同;根据样本数据训练所述多个教师子网络,得到所述教师网络,其中,所述样本数据包含对应的标签。7.根据权利要求6所述的方法,其特征在于,所述根据样本数据训练所述多个教师子网络的步骤,包括:根据样本数据训练最大教师子网络,其中,所述最大教师子网络为所述教师网络中通道数最多的教师子网络;根据所述样本数据以及所述最大教师子网络,训练多个较小教师子网络,其中,所述较小教师子网络为所述教师网络中除了所述最大教师子...

【专利技术属性】
技术研发人员:张选杨
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1