当前位置: 首页 > 专利查询>清华大学专利>正文

轻量级神经网络模型训练方法、系统、装置及存储介质制造方法及图纸

技术编号:31490735 阅读:65 留言:0更新日期:2021-12-18 12:27
一种轻量级神经网络模型训练方法、系统、装置及存储介质,轻量级神经网络模型训练方法包括:将学生模型的第一训练数据集输入至预先训练得到的教师模型,根据教师模型的输出,结合难度值计算方法,对所有样本进行难度值计算并排序后,得到第二训练数据集;将第二训练数据集划分为多个不同难度等级的训练子集;根据训练子集的难度等级次序,按照一定的输入方式并结合知识蒸馏策略,对所述学生模型进行训练。该方法将大型神经网络模型的知识按照预定义顺序迁移给轻量级网络模型,一方面可以降低轻量级网络模型的训练开销,另一方面还可以提升轻量级网络模型的性能。升轻量级网络模型的性能。升轻量级网络模型的性能。

【技术实现步骤摘要】
轻量级神经网络模型训练方法、系统、装置及存储介质


[0001]本文涉及神经网络模型压缩领域,尤其涉及一种轻量级神经网络模型训练方法、系统、装置及存储介质。

技术介绍

[0002]知识蒸馏是指通过引入一个预训练的教师网络的知识,作为构造学生网络训练损失函数的一部分,以实现将教师网络的知识迁移给学生网络的目的。对于知识蒸馏的方法,经过几年的发展,很多研究人员提出了各种各样的方式来表示教师网络的知识,包括匹配教师网络和学生网络的软化后的分类标签(即软标签)、中间层特征、注意力地图、实例与实例之间的关系或网络结构中层与层的关系等方法。
[0003]相关技术中,现有的知识蒸馏的方法都是基于传统的训练数据输入策略,即将训练数据集打乱后随机选择形成小批次(mini

batch)的形式逐步输入模型,没有充分考虑知识的难易程度对训练过程的影响,无法充分挖掘知识迁移的效能,因此使得训练得到的轻量级神经网络模型性能较差。

技术实现思路

[0004]本本专利技术实施例提供一种轻量级神经网络模型训练方法、系统、装置及存储介质,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种轻量级神经网络模型训练方法,其特征在于,所述方法包括:将学生模型的第一训练数据集输入至预先训练得到的教师模型,根据所述教师模型的输出,结合难度值计算方法,对所述第一训练数据集中的所有训练样本进行难度值计算并排序,得到第二训练数据集;将所述第二训练数据集划分为多个不同难度等级的训练子集;根据所述多个不同难度等级的训练子集,按照预设输入方式并结合知识蒸馏策略,对所述学生模型进行训练。2.根据权利要求1所述的轻量级神经网络模型训练方法,其特征在于,将学生模型的第一训练数据集输入至预先训练得到的教师模型后,所述教师模型执行的方法包括:对所述第一训练数据集中的各个训练样本进行难度值计算,得到覆盖所有训练样本难度值的最大难度值区间;根据所述训练样本的难度值,按照难度值从小到大顺序;或根据所述训练样本的难度值,按照难度值从大到小顺序,对第一训练数据集中的所有训练样本重新进行排序,得到第二训练数据集。3.根据权利要求2所述的轻量级神经网络模型训练方法,其特征在于,将所述第二训练数据集划分为多个不同难度等级的训练子集,包括:设定预设数量个目标难度等级,并将所述最大难度值区间划分为与所述目标难度等级等数量的多个分段难度值区间;针对所述第二训练数据集中的每个训练样本,根据所述训练样本的难度值,确定所述训练样本所属的分段难度值区间,得到所述多个分段难度值区间各自对应的训练子集,所述不同训练子集包含样本数量不相等。4.根据权利要求2所述的轻量级神经网络模型训练方法,其特征在于,将所述第二训练数据集划分为多个不同难度等级的训练子集,还包括:设定预设数量个目标难度等级,根据所述目标难度等级的数量和所述第二训练数据集中的训练样本总数,平均划分训练样本数量,得到所述不同难度等级的训练子集,所述不同训练子集包含样本数量相等。5.根据权利要求根据权利要求1所述的轻量级神经网络模型训练方法,其特征在于,根据所述多个不同难度等级的训练子集,利用所述训练子集并结合知识蒸馏策略,对所述学生模型进行训练,包括:按照多个训练子集难度等级递增的次序,采用第一难度等级的训练子集结合预设的知识蒸馏方法对所述学生模型进行训练;满足预设条件后,切换为第二难度等级的训练子集,并结合所述预设的知识蒸馏方法对所述学生模型进行训练;或按照多个训练子集难度等级递减的次序,采用第二难度等级的训练子集结合预设的知识蒸馏方法对所述学生模型进行训练;满足预设条件后,切换为第一难度等级的训练子集,并结合所述预设的知识蒸馏方法对所述学生模型进行训练。6.根据权利要求1所述的轻量级神经网络模型训练方法,其特征在于,根据所述多个不同难度等级的训练子集,利用所述训练子集并结合知...

【专利技术属性】
技术研发人员:宋士吉王朝飞黄高杨琪森
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1