模型训练方法、文本分类方法、电子设备及存储介质技术

技术编号:26260131 阅读:34 留言:0更新日期:2020-11-06 17:55
本申请提供一种模型训练方法、文本分类方法、电子设备及存储介质。方法包括根据学生模型第二transformer层中的各层到老师模型第一transformer层中各层之间的距离以及搬运量,对第二transformer层中每一层对应的权重进行更新获得更新后的权重;利用更新后的权重计算第二transformer层与第一transformer层之间的EMD,获得第一蒸馏损失;计算第二embedding层的第二蒸馏损失以及第二prediction层的第三蒸馏损失;根据第一蒸馏损失、第二蒸馏损失和第三蒸馏损失对学生模型中的参数进行训练,获得训练后的学生模型。本申请能够使学生模型学习到老师模型中更多的知识。

【技术实现步骤摘要】
模型训练方法、文本分类方法、电子设备及存储介质
本申请涉及自然语言处理
,具体而言,涉及一种模型训练方法、文本分类方法、电子设备及存储介质。
技术介绍
随着深度学习的发展,自然语言处理中深度神经网络的使用越来越多,为了能够提高模型的性能,大多数模型都比较复杂,参数量大,内存消耗大的问题,很难直接应用于GPU及智能手机等应用资源受限的设备上。模型蒸馏方法较好的解决了上述问题,现有技术中,模型蒸馏方法大多是以下几种思路:(1)将老师模型的输出(softtarget)作为学生模型的学习目标,通过最小化学生模型与老师模型的差距对学生模型进行更新;也有将softtarget和真实目标(hardtarget)以线性方式结合进行计算的。(2)大多蒸馏方法是在最后的输出层上对知识进行学习,还有一些方法也在权重矩阵和隐藏的激活层上一起进行学习。(3)学生模型的结构可以是LSTM等其他各种推理速度更快的架构,也可以是老师模型的缩小版,比如更小的网络层数,更小的隐含层维度。(4)目标函数可以是交叉熵、KL散度、均方误差等本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,包括:/n获取老师模型和学生模型;其中,所述老师模型为训练好的模型,包括第一向量embedding层、第一转换器transformer层和第一预测prediction层,且所述第一transformer层包括M层;所述学生模型为待训练的模型,包括第二embedding层、第二transformer层和第二prediction层,且所述第二transformer层包括N层;M和N均为正整数,且M>N;/n获取训练样本,并根据训练样本获得第二transformer层中的第i层到第一transformer层中的第j层之间的距离;其中,i和j均为正整数,且i≤N,j≤...

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:
获取老师模型和学生模型;其中,所述老师模型为训练好的模型,包括第一向量embedding层、第一转换器transformer层和第一预测prediction层,且所述第一transformer层包括M层;所述学生模型为待训练的模型,包括第二embedding层、第二transformer层和第二prediction层,且所述第二transformer层包括N层;M和N均为正整数,且M>N;
获取训练样本,并根据训练样本获得第二transformer层中的第i层到第一transformer层中的第j层之间的距离;其中,i和j均为正整数,且i≤N,j≤M;
根据第二transformer层中的第i层到第一transformer层中的第j层之间的距离以及搬运量,对所述第二transformer层中每一层对应的权重进行更新,获得对应层的更新后的权重;
利用所述更新后的权重计算第二transformer层与第一transformer层之间的搬土距离EMD,获得第一蒸馏损失;
分别计算第一embedding层的输出与第二embedding层的输出之间的第二蒸馏损失,以及第一prediction层的输出与第二prediction层的输出之间的第三蒸馏损失;
根据所述第一蒸馏损失、所述第二蒸馏损失和所述第三蒸馏损失对所述学生模型中的参数进行训练,获得训练后的学生模型。


2.根据权利要求1所述的方法,其特征在于,所述根据第二transformer层中的第i层到第一transformer层中的第j层之间的距离以及搬运量,对所述第二transformer层中每一层对应的权重进行更新,获得对应层的更新后的权重,包括:
根据第二transformer层中的第i层到第一transformer层中的第j层之间的距离以及搬运量,计算获得第二transformer层中的第i层对应的搬运成本;
根据所述第二transformer层中的第i层对应的搬运成本和第二transformer层中的第i层对应的权重计算获得第二transformer层中的第i层对应的单位搬运成本;
根据所述第二transformer层所有层的单位搬运成本之和与第i层对应的单位搬运成本计算获得第i层对应的更新后的权重。


3.根据权利要求2所述的方法,其特征在于,所述根据第二transformer层中的第i层到第一transformer层中的第j层之间的距离以及搬运量,计算获得第二transformer层中的第i层对应的搬运成本,包括:
根据公式计算获得第二transformer层中的第i层对应的搬运量;
其中,为第二transformer层中的第i层对应的搬运成本,dij为第二transformer层中的第i层到第一transformer层中的第j层之间的距离,fij为第二transformer层中的第i层到第一transformer层中的第j层的搬运量。


4.根据权利要求2所述的方法,其特征在于,所述根据所述第二transformer层中的第i层对应的搬运成本和第二transformer层中的第i层对应的权重计算获得第二transformer层中的第i层对应的单位搬运成本,包括:
根据公式计算获得第二transformer层中的第i层对应的单位搬运成本;
其中,为第二transformer层中的第i层对应的单位搬运成...

【专利技术属性】
技术研发人员:刘小康李健铨晋耀红
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1