一种模型训练方法、装置、计算设备及可读存储介质制造方法及图纸

技术编号:30944810 阅读:32 留言:0更新日期:2021-11-25 19:54
本发明专利技术公开了一种模型训练方法,包括:训练第一翻译模型,第一翻译模型用于将第一源语言的文本翻译为第一目标语言;训练第二翻译模型,第二翻译模型用于将第二源语言的文本翻译为第二目标语言;利用第一源语言的词向量和第二源语言的词向量训练源语言转换组件;利用第一目标语言的词向量和第二目标语言的词向量训练目标语言转换组件;以及基于训练好的第一翻译模型、第二翻译模型、源语言转换组件和目标语言转换组件构建第三翻译模型,第三翻译模型用于将第二源语言的文本翻译为第二目标语言。本发明专利技术还公开了对应的模型训练装置、翻译装置、计算设备和可读存储介质。计算设备和可读存储介质。计算设备和可读存储介质。

【技术实现步骤摘要】
一种模型训练方法、装置、计算设备及可读存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种模型训练方法、装置、计算设备及可读存储介质。

技术介绍

[0002]机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。近年来,基于神经网络的机器翻译,简称为神经机器翻译发展迅速,在翻译领域被广泛应用。
[0003]由于神经机器翻译的翻译模型参数数量庞大,需要大量的双语平行语料,例如数百万个句对,才能训练得到一个比较理想的翻译模型。因此,在诸如英语、德语、法语等拥有大量双语语料的语言之间的翻译任务上,神经机器翻译能够达到良好的翻译效果。但对于一些双语语料较少甚至稀缺的语言之间的翻译任务,神经机器翻译的翻译模型易产生比较严重的过拟合,导致翻译效果不佳。
[0004]目前期望在一个统一的模型中利用其他语言的丰富双语语料来提升双语语料较少的语言的翻译质量,因此通常直接构建一个既可以进行具有丰富双语语料的语言之间的翻译、也可以进行双语语料较少的语言之间的翻译的模型。但此种方式的缺点是在每次面对一种全新的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:训练第一翻译模型,所述第一翻译模型用于将第一源语言的文本翻译为第一目标语言;训练第二翻译模型,所述第二翻译模型用于将第二源语言的文本翻译为第二目标语言;利用所述第一源语言的词向量和所述第二源语言的词向量训练源语言转换组件;利用所述第一目标语言的词向量和所述第二目标语言的词向量训练目标语言转换组件;以及基于训练好的所述第一翻译模型、所述第二翻译模型、所述源语言转换组件和所述目标语言转换组件构建第三翻译模型,所述第三翻译模型用于将所述第二源语言的文本翻译为所述第二目标语言。2.如权利要求1所述的方法,其中,所述利用所述第一源语言的词向量和所述第二源语言的词向量训练源语言转换组件,包括:计算所述第二源语言的词向量到所述第一源语言的词向量的非线性转换,得到非线性转换关系一。3.如权利要求2所述的方法,其中,所述计算所述第二源语言的词向量到所述第一源语言的词向量的非线性转换,包括:利用至少一层前馈神经网络学习所述非线性转换关系一,所述前馈神经网络采用非线性激活函数。4.如权利要求1-3中任一所述的方法,其中,所述利用第一目标语言的词向量和所述第二目标语言的词向量训练目标语言转换组件,包括:计算所述第二目标语言的词向量到所述第一目标语言的词向量的非线性转换,得到非线性转换关系二。5.如权利要求4所述的方法,其中,所述计算所述第二目标语言的词向量到所述第一目标语言的词向量的非线性转换,包括:利用至少一层前馈神经网络学习所述非线性转换关系二,所述前馈神经网络采用非线性激活函数。6.如权利要求1-5中任一所述的方法,其中,所述基于训练好的所述第一翻译模型、所述第二翻译模型、所述源语言转换组件和所述目标语言转换组件构建第三翻译模型,包括:将所述非线性转换关系一作用于所述第二翻译模型的第二源语言的词向量,得到第三翻译模型的第一源语言的词向量;将所述非线性转换关系二作用于所述第二翻译模型的第二目标语言的词向量,得到第三翻译模型的第一目标语言的词向量;将所述第一翻译模型的编码器作为所述第三翻译模型的编码器;将所述第一翻译模型的解码器作为所述第三翻译模型的解码器。7.如权利要求6所述的方法,其中,所述第一翻译模型的解码器,和/或,所述第一翻译模型的编码器基于长短期记忆神经网络模型或者Transformer模型构建得到。8.如权利要求1所述的方法,其中,训练所述第一翻译模型,包括:利用第一双语语料训练所述第一翻译模型,所述第一双语语料包括使用所述第一源语
言和所述第一目标语言撰写的相互间具有翻译关系的文本。9.如权利要求1所述的方法,其中,训练所述第二翻译模型,包括:以多任务学习的方式训练所述第二翻译模型。10.如权利要求9所述的方法,其中,所述第二翻译模型包括第二源语言词嵌入组件和第二目标语言词嵌入组件,所述第二源语言词嵌入组件用于为所述第二源语言的词生成词向量,所述第二目标语言词嵌入组件用于为所述第二目标语言的词生成词向量,以多任务学习的方式训练所述第二翻译模型,包括:利用所述第二源语言的单语语料预先训练所述第二源语言词嵌入组件;利用所述第二目标语言的单语语料预先训练所述第二目标语言词嵌入组件;利用第二双语语料训练所述第二翻译模型,所述第二双语语料包括使用所述第二源语言和所述第二目标语言撰写的相互间具有翻译关系的文本。11.如权利要求2所述的方法,其中,所述第一翻译模型包括第一源语言词嵌入组件,所述第一源语言词嵌入组件用于为所述第一源语言的词生成词向量,所述利用所述第一源语言的词向量和所述第二源语言的词向量训练源语言转换组件,包括:经由训练好的所...

【专利技术属性】
技术研发人员:程善伯于恒翁荣祥骆卫华
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1