网络训练方法、数据识别方法、装置、设备和介质制造方法及图纸

技术编号:25441105 阅读:34 留言:0更新日期:2020-08-28 22:28
本申请涉及一种网络训练方法、数据识别方法、装置、设备和介质。该方法包括:将训练数据分别输入待训练学生网络和教师网络,得到所述待训练学生网络的多个学生网络中间层的输出特征及与所述学生网络中间层对应的教师网络中间层的输出特征;其中,所述训练数据包括图像数据、语音数据和文本数据中的至少一种;将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络,确定目标损失值;根据所述目标损失值,更新所述待训练学生网络的参数,得到学生网络。采用本方法能够提高学生网络的精度。

【技术实现步骤摘要】
网络训练方法、数据识别方法、装置、设备和介质
本申请涉及计算机
,特别是涉及一种网络训练方法、数据识别方法、装置、设备和介质。
技术介绍
随着科技的发展,神经网络被广泛的应用在人们的学习和生活中,使得现代人类全面进入人工智能时代。深度学习算法作为神经网络的主要算法之一也已经广泛地应用于图像处理和计算机视觉领域中,但是基于深度学习算法的神经网络模型普遍体积较大,计算复杂度高,随着人们对神经网络的深入研究,模型压缩也成为了现在深度学习领域的一个热点方向。知识蒸馏是模型压缩中的一个十分常用的算法。知识蒸馏的核心思想是训练一个体积较大的教师网络和一个相对轻量化的学生网络。然后利用实验效果更好的教师网络监督学生网络的训练,从而提升学生网络的实验效果,最终使用轻量化的网络來进行任务部署,达到使用效果更好的学生网络來应用的目的,例如使用学生网络进行图像识别、语音识别和文本识别等。在现有的知识蒸馏算法中,通常使用教师网络和学生网络每层的特征图差的L2模作为损失函数,来训练学生网络。然而,传统的使用教师网络和学生网络每层的特征图差的L2模作本文档来自技高网...

【技术保护点】
1.一种网络训练方法,其特征在于,所述方法包括:/n将训练数据分别输入待训练学生网络和教师网络,得到所述待训练学生网络的多个学生网络中间层的输出特征及与所述学生网络中间层对应的教师网络中间层的输出特征;其中,所述训练数据包括图像数据、语音数据和文本数据中的至少一种;/n将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络,确定目标损失值;/n根据所述目标损失值,更新所述待训练学生网络的参数,得到学生网络。/n

【技术特征摘要】
1.一种网络训练方法,其特征在于,所述方法包括:
将训练数据分别输入待训练学生网络和教师网络,得到所述待训练学生网络的多个学生网络中间层的输出特征及与所述学生网络中间层对应的教师网络中间层的输出特征;其中,所述训练数据包括图像数据、语音数据和文本数据中的至少一种;
将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络,确定目标损失值;
根据所述目标损失值,更新所述待训练学生网络的参数,得到学生网络。


2.根据权利要求1所述的方法,其特征在于,所述将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络,确定目标损失值,包括:
将每个所述学生网络中间层的输出特征,输入所述循环神经网络中与所述学生网络中间层对应的循环单元,以及将每个所述教师网络中间层的输出特征,输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元;
根据所述学生网络输出的所述训练数据对应的预测值,将所述学生网络对应的第一损失值确定为所述目标损失值。


3.根据权利要求1所述的方法,其特征在于,所述将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络,确定目标损失值,包括:
将每个所述学生网络中间层的输出特征,输入所述循环神经网络中与所述学生网络中间层对应的循环单元,以及将每个所述教师网络中间层的输出特征,输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元;
根据所述循环神经网络输出的所述训练数据对应的预测值,将所述循环神经网络对应的第二损失值确定为所述目标损失值。


4.根据权利要求1所述的方法,其特征在于,所述将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络,确定目标损失值,包括:
将每个所述学生网络中间层的输出特征,输入所述循环神经网络中与所述学生网络中间层对应的循环单元,以及将每个所述教师网络中间层的输出特征,输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元;
根据所述学生网络输出的所述训练数据对应的预测值,确定所述学生网络对应的第一损失值;
根据所述循环神经网络输出的所述训练数据对应的预测值,确定所述循环神经网络对应的第二损失值;
根据所述第一损失值和所述第二损失值,确定目标损失值。


5.根据权利要求4所述的方法,其特征在于,所述根据所述目标损失值,更新所述待训练学生网络的参数,得到学生网络,包括:
将所述第一损失值和所述第二损失值进行加权,得到所述目标损失值;...

【专利技术属性】
技术研发人员:李哲
申请(专利权)人:北京迈格威科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1