当前位置: 首页 > 专利查询>清华大学专利>正文

神经网络模型训练方法、装置及存储介质制造方法及图纸

技术编号:28322136 阅读:117 留言:0更新日期:2021-05-04 13:02
一种神经网络模型训练方法、装置及存储介质,神经网络模型训练方法包括:在教师网络的训练过程中,将预先选定的不同时间节点的教师网络分别保存为过程模型;将保存的多个过程模型进行集成,形成新的教师网络;利用新的教师网络训练学生网络。

【技术实现步骤摘要】
神经网络模型训练方法、装置及存储介质
本文涉及神经网络模型压缩领域,尤其涉及神经网络模型训练方法、装置及存储介质。
技术介绍
相比大型深度神经网络模型,轻量级神经网络模型的性能一般较差,难以满足一些对性能要求较高的应用。模型压缩是这个问题最常见的方法,一般包括模型剪枝、参数量化、知识蒸馏等方法。知识蒸馏是由Hinton于2015年提出的概念,旨在通过引入一个预训练的教师网络(一般是大型网络,性能优越复杂度高)的知识,作为构造学生网络(将部署于应用端的轻量级网络,性能差复杂度低)训练损失函数的一部分,以实现将教师网络的知识迁移给学生网络的目的。对于知识蒸馏的方法,经过几年的发展,很多研究人员提出了各种各样的方式来表示教师网络的知识,包括匹配教师网络和学生网络的软化后的分类标签(即软标签)、中间层特征、注意力地图、实例与实例之间的关系或网络结构中层与层的关系等方法。但这些方法中,学生网络所学习到的知识只是已经训练完成的教师网络的知识,并未包含教师网络自身训练过程中的知识,知识迁移不够完整。
技术实现思路
r>以下是对本文详细本文档来自技高网...

【技术保护点】
1.一种神经网络模型训练方法,其特征在于,包括:/n在教师网络的训练过程中,将预先选定的不同时间节点的教师网络分别保存为过程模型;/n将保存的多个过程模型进行集成,形成新的教师网络;/n利用所述新的教师网络训练学生网络。/n

【技术特征摘要】
1.一种神经网络模型训练方法,其特征在于,包括:
在教师网络的训练过程中,将预先选定的不同时间节点的教师网络分别保存为过程模型;
将保存的多个过程模型进行集成,形成新的教师网络;
利用所述新的教师网络训练学生网络。


2.根据权利要求1所述的神经网络模型训练方法,其特征在于,所述利用所述新的教师网络训练学生网络,包括:
根据选定的知识蒸馏方法在所述新的教师网络和所述学生网络之间进行知识蒸馏,构建该知识蒸馏方法所对应的训练损失函数;
利用所述损失函数对学生网络进行训练。


3.根据权利要求1所述的神经网络模型训练方法,其特征在于,所述将保存的多个过程模型进行集成,包括:
为所述保存的多个过程模型分别分配权重值ωj,并按照所分配的权重值ωj对所述多个过程模型进行集成;
其中,所述多个过程模型各自对应的权重值ωj之和为1。


4.根据权利要求3所述的神经网络模型训练方法,其特征在于,所述为所述保存的多个过程模型分别分配权重值ωj,包括以下任一种方式:
为所述多个过程模型分别预设权重值,或者所述多个过程模型通过训练自主学习的方式获得各自的权重值。


5.根据权利要求3所述的神经网络模型训练方法,其特征在于,所述按照所分配的权重值ωj对所述多个过程模型进行集成,包括:
对任意输入样本xi,有
其中,T′θ表示新的教师网络,表示过程模型,n...

【专利技术属性】
技术研发人员:黄高王朝飞宋士吉杨琪森
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1