多语言机器翻译模型训练方法、多语言翻译方法及装置制造方法及图纸

技术编号:32318795 阅读:32 留言:0更新日期:2022-02-16 18:24
本发明专利技术提供一种多语言机器翻译模型训练方法、多语言翻译方法及装置。训练方法包括:获取多语言翻译训练语料和多语言翻译验证语料;建立并初始化全参数共享的多语言翻译模型,利用多语言翻译训练语料和多语言翻译验证语料对多语言翻译模型进行训练,得到多语言机器翻译模型。在训练过程中模型自动判断每个共享的参数是否需要转变为语言相关的参数,复制需要转变的参数并将其分配给相关的语言,从而使得模型同时具有共享参数和语言相关参数。本发明专利技术用于在多语言机器翻译模型训练的过程中,自动判断参数是否需要共享以及需要被哪些语言对共享,而不依赖预先指定的共享或语言相关的模型组件。型组件。型组件。

【技术实现步骤摘要】
多语言机器翻译模型训练方法、多语言翻译方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种多语言机器翻 译模型训练方法、多语言翻译方法及装置。

技术介绍

[0002]机器翻译是利用计算机将一种自然语言自动翻译成另一种自然 语言的一门学科和技术,其中,自然语言翻译前通常称为源语言,翻 译后通常称为目标语言。近些年来,随着深度学习技术的发展,基于 神经网络的机器翻译方法在翻译质量上有了明显的提升,并得到了广 泛的应用。相比于传统的基于统计的机器翻译方法,神经网络机器翻 译模型能通过端到端的方式直接建模一个语言到另一个语言的映射。 在这种模式下,通过扩展源端/目标端的语言数据,可以直接进行一 个语言集合到另一个语言集合之间的映射,使得单个模型可以处理多 个语言对之间的翻译,同时提高了训练和部署的效率,因此这种多语 言翻译模型得到了广泛关注和应用。
[0003]在多语言翻译中,一个模型需要建模多个语言之间的映射关系, 而不同语言之间存在语法差异,因此引入了语言冲突和模型瓶颈的问 题,即在一个语言上进行优化会影响另一个语言的翻译质量,使得多 语言翻译模型的效果不如双语翻译模型。目前解决该问题的方法是在 一个所有语言共享的模型中,添加一些人工设计的语言独有组件,以 提高模型对特定语言的建模能力。但是这种方法强烈依赖先验知识, 需要语言学特征和经验指导语言独有部分的设计,而且难以扩展到其 他语言上。

技术实现思路

[0004]本专利技术提供一种多语言机器翻译模型训练方法、多语言翻译方法 及装置,用以解决现有技术中多语言翻译模型存在语言冲突和模型瓶 颈的缺陷,实现提升多语言翻译模型的翻译准确性。
[0005]本专利技术提供一种多语言机器翻译模型训练方法,包括:
[0006]获取多语言翻译训练语料和多语言翻译验证语料,所述多语言翻 译训练语料为包含双语平行数据的多个语言对,所述多语言翻译验证 语料包含为包含多语言平行数据的多个语言对;
[0007]建立并初始化全参数共享的多语言翻译模型,利用所述多语言翻 译训练语料和所述多语言翻译验证语料对所述多语言翻译模型进行 训练,得到多语言机器翻译模型;其中,通过对多语言翻译模型的训 练,将所述多语言翻译模型的全参数共享转化为部分参数共享且其余 参数与语言相关,所述与语言相关的参数通过如下步骤确定:
[0008]在训练过程中每次验证时,根据多语言翻译验证语料中所有语言 对在每个参数上的梯度逐参数组对所述所有语言对进行二类别聚类;
[0009]根据每个参数组二类别聚类后的类间距离选取参数组,复制选取 的参数组得到参数组复制本;
[0010]将所述选取的参数组和所述参数组复制本分别赋予选取的参数 组的两个类别包含的语言对,获得与所述语言对包含的语言相关的参 数。
[0011]根据本专利技术提供的一种多语言机器翻译模型训练方法,所述根据 多语言翻译验证语料中所有语言对在每个参数上的梯度逐参数组对 所述所有语言对进行二类别聚类具体包括如下步骤:
[0012]获取多语言翻译验证语料中每个语言对在每个参数上的梯度,将 所述多语言翻译模型的所有参数分为多个参数组,将所述每个参数组 中所有语言对的梯度展开为梯度向量;
[0013]计算所述每个参数组中所有语言对的梯度向量的余弦相似性,根 据所述所有语言对的梯度向量的余弦相似性对每个参数组的语言对 进行二类别聚类。
[0014]根据本专利技术提供的一种多语言机器翻译模型训练方法,所述根据 每个参数组二类别聚类后的类间距离选取参数组具体包括如下步骤:
[0015]获取每个参数组二类别聚类后的类间距离并排序,选取类间距离 最大的K个参数组,其中K为正整数。
[0016]根据本专利技术提供的一种多语言机器翻译模型训练方法,所述每个 语言对包括源语言句子和目标语言句子,所述包含双语平行数据的语 言对的源语言和目标语言均为一种,所述包含多语言平行数据的语言 对的源语言和目标语言均为一种或多种。
[0017]本专利技术还提供一种多语言翻译方法,包括:
[0018]获取待翻译源语言句子;
[0019]根据所述多语言机器翻译模型训练方法训练得到多语言机器翻 译模型,对所述待翻译源语言句子进行翻译。
[0020]本专利技术还提供一种多语言机器翻译模型训练装置,包括:
[0021]采集单元,所述采集单元用于采集语言翻译训练语料和多语言翻 译验证语料,所述多语言翻译训练语料为包含双语平行数据的多个语 言对,所述多语言翻译验证语料包含为包含多语言平行数据的多个语 言对;
[0022]训练单元,所述训练单元用于建立并初始化全参数共享的多语言 翻译模型,利用所述多语言翻译训练语料和所述多语言翻译验证语料 对所述多语言翻译模型进行训练,得到多语言机器翻译模型;其中, 通过对多语言翻译模型的训练,将所述多语言翻译模型的全参数共享 转化为部分参数共享且其余参数与语言相关,所述与语言相关的参数 通过如下步骤确定:
[0023]在训练过程中每次验证时,根据多语言翻译验证语料中所有语言 对在每个参数上的梯度逐参数组对所述所有语言对进行二类别聚类;
[0024]根据每个参数组二类别聚类后的类间距离选取参数组,复制选取 的参数组得到参数组复制本;
[0025]将所述选取的参数组和所述参数组复制本分别赋予选取的参数 组的两个类别包含的语言对,获得与所述语言对包含的语言相关的参 数。
[0026]本专利技术还提供一种多语言翻译装置,包括:
[0027]源语言采集单元,所述源语言采集单元用于获取待翻译源语言句 子;
[0028]翻译单元,所述翻译单元用于所述多语言机器翻译模型训练方法 训练得到多语
言机器翻译模型,对所述待翻译源语言句子进行翻译。
[0029]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储 器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时 实现如上述任一种所述多语言机器翻译模型训练方法或多语言翻译 方法的步骤。
[0030]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算 机程序,该计算机程序被处理器执行时实现如上述任一种所述多语言 机器翻译模型训练方法或多语言翻译方法的步骤。
[0031]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算 机程序被处理器执行时实现如上述任一种所述多语言机器翻译模型 训练方法或多语言翻译方法的步骤。
[0032]本专利技术提供的一种多语言机器翻译模型训练方法、多语言翻译方 法及装置,通过在多语言机器翻译模型训练的过程中,自动判断参数 是否需要共享以及需要被哪些语言对共享,而不依赖预先指定的共享 或语言相关的模型组件,达到了自动学习参数共享的效果。同时,相 比于全共享的多语言翻译模型,本专利技术在翻译质量上取得了明显的提 升。
附图说明
[0033]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实 施例或现有技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多语言机器翻译模型训练方法,其特征在于,包括:获取多语言翻译训练语料和多语言翻译验证语料,所述多语言翻译训练语料为包含双语平行数据的多个语言对,所述多语言翻译验证语料包含为包含多语言平行数据的多个语言对;建立并初始化全参数共享的多语言翻译模型,利用所述多语言翻译训练语料和所述多语言翻译验证语料对所述多语言翻译模型进行训练,得到多语言机器翻译模型;其中,通过对多语言翻译模型的训练,将所述多语言翻译模型的全参数共享转化为部分参数共享且其余参数与语言相关,所述与语言相关的参数通过如下步骤确定:在训练过程中每次验证时,根据多语言翻译验证语料中所有语言对在每个参数上的梯度逐参数组对所述所有语言对进行二类别聚类;根据每个参数组二类别聚类后的类间距离选取参数组,复制选取的参数组得到参数组复制本;将所述选取的参数组和所述参数组复制本分别赋予选取的参数组的两个类别包含的语言对,获得与所述语言对包含的语言相关的参数。2.根据权利要求1所述多语言机器翻译模型训练方法,其特征在于,所述根据多语言翻译验证语料中所有语言对在每个参数上的梯度逐参数组对所述所有语言对进行二类别聚类具体包括如下步骤:获取多语言翻译验证语料中每个语言对在每个参数上的梯度,将所述多语言翻译模型的所有参数分为多个参数组,将所述每个参数组中所有语言对的梯度展开为梯度向量;计算所述每个参数组中所有语言对的梯度向量的余弦相似性,根据所述所有语言对的梯度向量的余弦相似性对每个参数组的语言对进行二类别聚类。3.根据权利要求1所述多语言机器翻译模型训练方法,其特征在于,所述根据每个参数组二类别聚类后的类间距离选取参数组具体包括如下步骤:获取每个参数组二类别聚类后的类间距离并排序,选取类间距离最大的K个参数组,其中K为正整数。4.根据权利要求1所述多语言机器翻译模型训练方法,其特征在于,所述每个语言对包括源语言句子和目标语言句子,所述包含双语平行数据的语言对的源语言和目标语言均为一种,所述包含多语言平行数据的语言对的源语言和目标语言均为一种或多种。5.一种多语言翻译方法,其特征在于,包括:获取待翻译源语言句子;根据权利要求1

4任一项所述多语...

【专利技术属性】
技术研发人员:张家俊王迁宗成庆
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1