基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质制造方法及图纸

技术编号:26377675 阅读:32 留言:0更新日期:2020-11-19 23:46
本发明专利技术提供一种基于知识蒸馏的机器翻译模型训练方法、装置、设备和介质,该方法包括:获取教师模型和学生模型;获取样本数据集,包含训练语料;将训练语料输入教师模型,得到教师模型中被简化模块输出的中间内容、教师模型输出的最终结果;将训练语料输入学生模型,得到学生模型中被简化模块输出的中间内容、学生模型输出的最终结果;根据训练语料的标注翻译标签、教师模型中被简化模块输出的中间内容、教师模型输出的最终结果、学生模型中被简化模块输出的中间内容、学生模型输出的最终结果,确定模型损失函数;根据模型损失函数对学生模型进行迭代训练。本发明专利技术利用教师模型对学生模型进行训练,在模型结构简化的情况下,保证模型的性能效果。

【技术实现步骤摘要】
基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质
本专利技术涉及人工智能领域,尤其涉及一种基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质。
技术介绍
机器翻译(machinetranslation),又称为自动翻译,是利用计算机将一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。机器翻译是自然语言处理(NaturalLanguageProcessing)的一个分支,与计算语言学(ComputationalLinguistics)、自然语言理解(NaturalLanguageUnderstanding)之间存在着密不可分的关系。使用机器进行翻译的思想最早由WarrenWeaver于1949年提出。在很长一段时间里(20世纪50年代到80年代),机器翻译都是通过研究源语言与目标语言的语言学信息来实现的,也就是基于词典和语法生成翻译,这被称为基于规则的机器翻译(RBMT)。随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本数据库的分析来生成翻译结果。这种方法被称为统计机器翻译(SM本文档来自技高网...

【技术保护点】
1.一种基于知识蒸馏的机器翻译模型训练方法,其特征在于,包括:/n获取训练好的教师模型以及未训练的学生模型,所述学生模型通过简化所述教师模型中的部分模块得到;/n获取样本数据集,所述样本数据集包含若干训练语料、以及所述训练语料对应的标注翻译标签;/n将所述训练语料输入所述教师模型进行处理,得到所述教师模型中被简化模块输出的中间内容、以及所述教师模型输出的最终结果;/n将所述训练语料输入所述学生模型进行处理,得到所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果;/n根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学...

【技术特征摘要】
1.一种基于知识蒸馏的机器翻译模型训练方法,其特征在于,包括:
获取训练好的教师模型以及未训练的学生模型,所述学生模型通过简化所述教师模型中的部分模块得到;
获取样本数据集,所述样本数据集包含若干训练语料、以及所述训练语料对应的标注翻译标签;
将所述训练语料输入所述教师模型进行处理,得到所述教师模型中被简化模块输出的中间内容、以及所述教师模型输出的最终结果;
将所述训练语料输入所述学生模型进行处理,得到所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果;
根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果,确定模型损失函数;
根据所述模型损失函数对所述学生模型进行迭代训练。


2.根据权利要求1所述的基于知识蒸馏的机器翻译模型训练方法,其特征在于,所述根据所述训练语料对应的标注翻译标签、所述教师模型中被简化模块输出的中间内容、所述教师模型输出的最终结果、所述学生模型中被简化模块输出的中间内容、以及所述学生模型输出的最终结果,确定模型损失函数,包括:
根据所述教师模型中被简化模块输出的中间内容、以及所述学生模型中被简化模块输出的中间内容,确定第一损失函数;
根据所述训练语料对应的标注翻译标签、以及所述学生模型输出的最终结果,确定第二损失函数;
根据所述教师模型输出的最终结果、以及所述学生模型输出的最终结果,确定第三损失函数;
根据所述第一损失函数、第二损失函数和第三损失函数,确定所述模型损失函数。


3.根据权利要求1所述的基于知识蒸馏的机器翻译模型训练方法,其特征在于,所述教师模型和学生模型分别包含嵌入模块、编码模块、解码模块和输出模块。


4.根据权利要求3所述的基于知识蒸馏的机器翻译模型训练方法,其特征在于,所述学生模型与所述教师模型的嵌入模块、编码模块和输出模块的结构一致,所述学生模型的解码模块通过简化所述教师模型的解码模块得到,所述学生模型的解码模块与所述教师模型的解码模块之间设有全连接层。


5.根据权利要求1所述的基于知识蒸馏的机器翻译模型训练方法,其特征在于,当获取所述样本数据集后,所述方法还包括:对所述训练语料进行预处理。


6.根据权利要求5所述的基于知识蒸馏的机器翻译模型训练方法,其特征在于,所述对所述训练语料进行预处理,包括:
将所述训练语料中的文字转换为对应的数值;
将所述训练语料划分为不同的批次,并通过零值填充方式将每批次所述训练语料调整为相同长度。


7.一种基于知识蒸馏的机器翻译模型训练装置,其特征在于,包括:
模型获取模块,用于获取训练好的教师模型以及未训练的学生模型,所述学生模型通过简化所述教师模型中的部分模块得到;
样本获取模块,用于获取样本...

【专利技术属性】
技术研发人员:袁秋龙
申请(专利权)人:上海携旅信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1