机器翻译方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35878940 阅读:14 留言:0更新日期:2022-12-07 11:17
本发明专利技术提供一种机器翻译方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,该方法包括:获取目标语句;将目标语句输入至机器翻译模型中,得到机器翻译模型输出的目标语句对应的目标语言语句;机器翻译模型是基于样本语句、样本语句对应的第一语言语句和第二语言语句进行蒸馏训练得到的。本发明专利技术实现通过蒸馏训练,得到具备多种语言知识的机器翻译模型,以在压缩模型规模、降低计算资源消耗的同时,可以实现多语言的机器翻译,最大限度地减少初始语言模型结构的修改,且可在最大限度地保留初始语言模型的基础上取得最优的翻译性能,以实现快速精准地进行机器翻译。以实现快速精准地进行机器翻译。以实现快速精准地进行机器翻译。

【技术实现步骤摘要】
机器翻译方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种机器翻译方法、装置、电子设备及存储介质。

技术介绍

[0002]机器翻译是自然语言模型比较传统的应用方向,在现有的研究中提出了多中不同方案,用以改进翻译的精度。
[0003]例如,采用预训练语言模型进行机器翻译。而很多预训练模型都是基于单语言语料数据进行训练的,在将其应用到机器翻译领域时,需要对预训练语言模型的结构进行调整或预先语言模型的学习目标进行重新调整,进而需要采用大量的样本数据对调整后的预训练模型进行重新训练,无法继承预训练模型的先验知识,增加了机器翻译过程中的计算资源的消耗。

技术实现思路

[0004]本专利技术提供一种机器翻译方法、装置、电子设备及存储介质,用以解决现有技术中对预训练语言模型的结构进行调整或预先语言模型的学习目标进行重新调整,机器翻译过程中的计算资源的消耗较大的缺陷,实现提高机器翻译的通用性,降低计算资源。
[0005]本专利技术提供一种机器翻译方法,包括:获取目标语句;将所述目标语句输入至机器翻译模型中,得到所述机器翻译模型输出的所述目标语句对应的目标语言语句;所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的;所述第一语言语句的语言类型与所述样本语句的语言类型相同,所述第二语言语句的语言类型与所述样本语句的语言类型不相同。
[0006]根据本专利技术提供的一种机器翻译方法,所述机器翻译模型是基于如下步骤训练得到的:获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句;基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,进行蒸馏训练得到预训练机器翻译模型;获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句;基于所述第二样本语句以及所述第二样本语句对应的第二语言语句,对所述预训练机器翻译模型进行训练,得到所述机器翻译模型。
[0007]根据本专利技术提供的一种机器翻译方法,所述基于所述第一样本语句以及所述第一
样本语句对应的第一语言语句,进行蒸馏训练得到预训练机器翻译模型,包括:基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,对教师模型进行训练;将所述第一样本语句输入至训练后的教师模型,得到所述训练后的教师模型输出的所述第一样本语句对应的第一语言语句;基于所述训练后的教师模型输出的所述第一样本语句对应的第一语言语句以及所述第一样本语句,对学生模型进行蒸馏训练,得到所述预训练机器翻译模型。
[0008]根据本专利技术提供的一种机器翻译方法,在所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,对教师模型进行训练之前,所述方法还包括:基于第一参数量的预训练语言模型构建教师模型,基于第二参数量的预训练语言模型构建学生模型;所述第二参数量小于所述第一参数量。
[0009]根据本专利技术提供的一种机器翻译方法,所述预训练语言模型是以所述样本语句对应的第二语言语句所属的语言为主体语言,对自回归语言模型进行预训练获取的。
[0010]根据本专利技术提供的一种机器翻译方法,所述获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句,包括:从单语语料库中,获取第一样本数据集;对所述第一样本数据集进行数据处理;所述数据处理包括删除数据长度小于目标长度,和/或包含敏感词的单语语句;基于处理后的第一样本数据集,获取所述第一样本语句以及所述第一样本语句对应的第一语言语句。
[0011]根据本专利技术提供的一种机器翻译方法,所述获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句,包括:从双语语料库中,获取第二样本数据集;对所述第二样本数据集进行数据处理;所述数据处理包括删除任一语句的数据长度小于目标长度,和/或任一语句中包含敏感词的双语语句对;基于处理后的第二样本数据集,获取所述第二样本语句以及所述第二样本语句对应的第二语言语句。
[0012]根据本专利技术提供的一种机器翻译方法,所述获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句,包括:根据所述第二样本语句确定输入信息;将所述输入信息输入至所述预训练机器翻译模型中,得到所述预训练机器翻译模型输出的所述第二样本语句对应的第二语言语句。
[0013]根据本专利技术提供的一种机器翻译方法,所述根据所述第二样本语句确定输入信息,包括:将所述第二样本语句作为所述输入信息。
[0014]根据本专利技术提供的一种机器翻译方法,所述根据所述第二样本语句确定输入信息,包括:在所述第二样本语句之前增加多组目标语料语句对;所述目标语料语句对中的目标语句的语言类型与所述第二样本语句的语言类型相同,所述目标语料语句对中的目标语
言语句的语言类型与所述第二样本语句对应的第二语言语句的语言类型相同;根据增加结果,确定所述输入信息。
[0015]根据本专利技术提供的一种机器翻译方法,所述基于所述第二样本语句以及所述第二样本语句对应的第二语言语句,对所述预训练机器翻译模型进行训练,得到所述机器翻译模型,包括:将所述第二样本语句作为样本,将所述第二样本语句对应的第二语言语句作为样本标签,对所述预训练机器翻译模型进行训练,得到所述机器翻译模型。
[0016]根据本专利技术提供的一种机器翻译方法,所述基于所述第二样本语句以及所述第二样本语句对应的第二语言语句,对所述预训练机器翻译模型进行训练,得到所述机器翻译模型,包括:将所述第二样本语句作为样本标签,将所述第二样本语句对应的第二语言语句作为样本,对所述预训练机器翻译模型进行训练,得到所述机器翻译模型。
[0017]本专利技术还提供一种机器翻译装置,包括:获取模块,用于获取目标语句;翻译模块,用于将所述目标语句输入至机器翻译模型中,得到所述机器翻译模型输出的所述目标语句对应的目标语言语句;所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的;所述第一语言语句的语言类型与所述样本语句的语言类型相同,所述第二语言语句的语言类型与所述样本语句的语言类型不相同。
[0018]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述机器翻译方法。
[0019]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述机器翻译方法。
[0020]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述机器翻译方法。
[0021]本专利技术提供的机器翻译方法、装置、电子设备及存储介质,通过基于样本语句、样本语句对应的第一语言语句和第二语言语句,进行蒸馏训练,得到具备多种语言知识的机器翻译模型,基于具备多种语言知识的机器翻译模型进行机器翻译,在压缩模型规模、降低计算资源消耗的同时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译方法,其特征在于,包括:获取目标语句;将所述目标语句输入至机器翻译模型中,得到所述机器翻译模型输出的所述目标语句对应的目标语言语句;所述机器翻译模型是基于样本语句、所述样本语句对应的第一语言语句和所述样本语句对应的第二语言语句进行蒸馏训练得到的;所述第一语言语句的语言类型与所述样本语句的语言类型相同,所述第二语言语句的语言类型与所述样本语句的语言类型不相同。2.根据权利要求1所述的机器翻译方法,其特征在于,所述机器翻译模型是基于如下步骤训练得到的:获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句;基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,进行蒸馏训练得到预训练机器翻译模型;获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句;基于所述第二样本语句以及所述第二样本语句对应的第二语言语句,对所述预训练机器翻译模型进行训练,得到所述机器翻译模型。3.根据权利要求2所述的机器翻译方法,其特征在于,所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,进行蒸馏训练得到预训练机器翻译模型,包括:基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,对教师模型进行训练;将所述第一样本语句输入至训练后的教师模型,得到所述训练后的教师模型输出的所述第一样本语句对应的第一语言语句;基于所述训练后的教师模型输出的所述第一样本语句对应的第一语言语句以及所述第一样本语句,对学生模型进行蒸馏训练,得到所述预训练机器翻译模型。4.根据权利要求3所述的机器翻译方法,其特征在于,在所述基于所述第一样本语句以及所述第一样本语句对应的第一语言语句,对教师模型进行训练之前,所述方法还包括:基于第一参数量的预训练语言模型构建教师模型,基于第二参数量的预训练语言模型构建学生模型;所述第二参数量小于所述第一参数量。5.根据权利要求4所述的机器翻译方法,其特征在于,所述预训练语言模型是以所述样本语句对应的第二语言语句所属的语言为主体语言,对自回归语言模型进行预训练获取的。6.根据权利要求2

5任一所述的机器翻译方法,其特征在于,所述获取所述样本语句中的第一样本语句以及所述第一样本语句对应的第一语言语句,包括:从单语语料库中,获取第一样本数据集;对所述第一样本数据集进行数据处理;所述数据处理包括删除数据长度小于目标长度,和/或包含敏感词的单语语句;基于处理后的第一样本数据集,获取所述第一样本语句以及所述第一样本语句对应的第一语言语句。7.根据权利要求2

5任一所述的机器翻译方法,其特征在于,所述获取所述样本语句中的第二样本语句以及所述第二样本语句对应的第二语言语句,包括:
从双语语料库中,获取第二样本数据集;对所述第二样本数据集进行数据处理;所述数据处理包...

【专利技术属性】
技术研发人员:于彤
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1