一种使用知识异构的深度学习模型蒸馏方法和系统技术方案

技术编号:37983359 阅读:26 留言:0更新日期:2023-06-30 09:58
本发明专利技术公开了一种使用知识异构的深度学习模型蒸馏方法和系统,通过获取目标文本数据;将目标文本数据输入训练好的学生模型进行预测;训练好的学生模型输出预测结果;其中,训练好的学生模型经过以下步骤训练得到:构建初始的教师网络模型,获得训练好的教师模型;获取初始学生模型,并根据获得训练好的教师模型进行蒸馏,获得训练好的学生模型。本方法则在训练时,让Bi

【技术实现步骤摘要】
一种使用知识异构的深度学习模型蒸馏方法和系统


[0001]本申请涉及深度学习
,特别是涉及一种使用知识异构的深度学习模型蒸馏方法和系统。

技术介绍

[0002]在进行自然文本分类模型的训练时,可采用蒸馏的方式,即利用一个大模型去指导小模型进行训练学习,大模型通常称为教师模型,小模型通常称为学生模型,这样,得到的学生模型既具有较快的速度,又能够学习到教师模型的能力而具有较高的准确率。
[0003]一般情况下,我们不会去区分训练和部署使用的模型,但是训练和部署之间存在着一定的不一致性:在训练过程中,我们需要使用复杂的模型,大量的计算资源,以便从非常大、高度冗余的数据集中提取出信息。在实验中,效果最好的模型往往规模很大,甚至由多个模型集成得到。而大模型不方便部署到服务中去,常见的瓶颈如下:推断速度慢以及对部署资源要求高(内存,显存等)。因此,模型压缩,在保证性能的前提下减少模型的参数量成为了一个重要的问题。
[0004]“模型蒸馏”属于模型压缩的一种方法。知识蒸馏就是一种模型压缩方法,是一种基于“教师
>‑
学生网本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种使用知识异构的深度学习模型蒸馏方法,其特征在于,所述方法包括:获取目标文本数据;将所述目标文本数据输入训练好的学生模型进行预测;具体为,将所述目标文本数据进行不分词并按字编码,得到第一编码数据;将所述第一编码数据输入训练好的学生模型;所述训练好的学生模型输出预测结果;其中,所述训练好的学生模型经过以下步骤训练得到:构建初始的教师网络模型,获得训练好的教师模型;获取初始学生模型,并根据所述获得训练好的教师模型进行蒸馏,获得训练好的学生模型。2.根据权利要求1所述的方法,其特征在于,所述构建初始的教师网络模型,获得训练好的教师模型,具体为:获取训练文本数据,并设置教师模型各项参数;将所述训练文本数据不分词并按字编码,得到第二编码数据,将所述第二编码数据输入初始的教师网络模型进行训练,获得训练好的教师模型。3.根据权利要求1所述的方法,其特征在于,所述获取初始学生模型,并根据所述获得训练好的教师模型进行蒸馏,获得训练好的学生模型,具体为:获取初始学生模型,并设置所述初始学生模型参数,初始化所述训练好的教师模型;获取获取训练文本数据,将所述训练文本数据进行不分词并按字编码,得到第二编码数据;将所述第二编码数据输入初始的教师网络模型进行训练并输出第一输出数据;对所述训练文本数据进行分词按字编码,得到第三编码数据,并将所述第三编码数据输入所述初始学生模型,所述初始训练模型输出第二输出数据;将所述第一输出数据注入到第二输出数据中,生成第三输出数据,将第三输出数据作为学生模型的输出进行训练,获得训练好的学生模型。4.根据权利要求1所述的方法,其特征在于,所述目标文本数据为中文语料数据。5.根据权利要求1所述的方法,其特征在于,所述学生模型为Bi

LSTM模型,所述教师模型为Bert模型。6.一种使用知识异构的深度学习模型蒸馏系统,其特征在于,所述系统包括:获取模...

【专利技术属性】
技术研发人员:董胜涛
申请(专利权)人:北京麦克斯泰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1