当前位置: 首页 > 专利查询>清华大学专利>正文

神经网络机器翻译模型的训练方法及装置制造方法及图纸

技术编号:19964412 阅读:50 留言:0更新日期:2019-01-03 12:55
本发明专利技术提供一种神经网络机器翻译模型的训练方法和装置,包括:获取多种高资源语言对和低资源语言对;对高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作;将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型;根据最后一个训练好的父模型训练所述孩子模型,获得用于翻译低资源语言的神经网络机器翻译模型。本发明专利技术有助于在低资源的语言对上训练出来的孩子模型性能上得到明显提升。

Training Method and Device of Machine Translation Model Based on Neural Network

The invention provides a training method and device for a neural network machine translation model, which includes: acquiring a variety of high-resource language pairs and low-resource language pairs; performing a spelling unification operation at the character level for the source language of high-resource language pairs and the source language of low-resource language pairs; and taking each high-resource language pair after operation as the training set of the corresponding parent model, and after operation, taking each high-resource language pair as the training set of the corresponding parent model. The training set of low-resource language as a child model is trained according to the preset order according to the transfer learning method of each parent model, so that the word vectors of the source language and the target language of the previous parent model can be transferred to the next parent model. According to the last trained parent model, the child model is trained and the neural network for translating low-resource language is obtained. Machine translation model. The invention is helpful to improve the performance of the child model trained in low resource language.

【技术实现步骤摘要】
神经网络机器翻译模型的训练方法及装置
本专利技术涉及机器翻译
,更具体地,涉及神经网络机器翻译模型的训练方法及装置。
技术介绍
为了实现自动的机器翻译,目前常用的技术包括基于神经网络的方法和基于统计的方法,前者为NMT(NeuralMachineTranslation,神经网络机器翻译),后者为SMT(StatisticalMachienTranslation,统计机器翻译)。为此,需要收集大规模高质量的平行语料以获得可靠的翻译模型。然而,高质量的平行语料常常只存在于少量的几种语言之间,并且往往受限于某些特定的领域,比如政府文件、新闻等。除了这些特定的领域之外,有些语言本身就资源缺乏,难以从互联网上找到或者获取可用的平行语料。目前NMT已经超越传统的SMT,但是主要存在的缺点是为了训练翻译模型需要高度依靠大量的平行语料。随着互联网的兴起,互联网为NMT带来了新的机遇。互联网上大量的语料,使得覆盖多种语言、领域的平行语料获取成为可能。但是从网上获取的语料中,资源匮乏的语料很少,比如比较容易得到的是新闻的单语语料,可是缺乏资源的几种语言中,获取政府、电影、贸易、教育、体育以及文艺等本文档来自技高网...

【技术保护点】
1.一种神经网络机器翻译模型的训练方法,其特征在于,包括:获取多种高资源语言对和低资源语言对;所述多种高资源语言对中的源语言为不同语系、不同语族以及不同语言分支的平行语句且所述高资源语言对中的目标语言和低资源语言对中的目标语言相同;对所述高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作;对于任意一种高资源语言对的源语言,满足操作后的该源语言与操作后的低资源语言对的源语言间的共享单词的比例大于预设阈值;将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言...

【技术特征摘要】
1.一种神经网络机器翻译模型的训练方法,其特征在于,包括:获取多种高资源语言对和低资源语言对;所述多种高资源语言对中的源语言为不同语系、不同语族以及不同语言分支的平行语句且所述高资源语言对中的目标语言和低资源语言对中的目标语言相同;对所述高资源语言对的源语言和低资源语言对的源语言在字符级别上进行拼写统一化操作;对于任意一种高资源语言对的源语言,满足操作后的该源语言与操作后的低资源语言对的源语言间的共享单词的比例大于预设阈值;将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型;所述预设顺序与各高资源语言对的规模正相关;根据最后一个训练好的父模型训练所述孩子模型,获得用于翻译低资源语言的神经网络机器翻译模型。2.根据权利要求1所述的方法,其特征在于,所述对所述高资源语言对和低资源语言对在字符级别上进行拼写统一化操作,具体为:将所有高资源语言对和低资源语言对的源语句进行拉丁化转换,获得对应不同语言的字符;将任意两个表示相同含义的字符中不同的字母替换为相同的字母。3.根据权利要求1所述的方法,其特征在于,所述根据预设顺序对各父模型按照迁移学习的方法进行训练,以使得上一个父模型的源语言的词向量和目标语言的词向量迁移至下一个父模型,具体为:对于待训练的第i个父模型,当i=1时,根据第1个父模型的源语言的词向量、目标语言的词向量以及权重矩阵获得第1个父模型中初始化的参数;根据第1个父模型的训练集和初始化的参数训练第1个父模型,记录训练好的第1个父模型中调整后的参数;当i大于1时,将训练好的第i-1个父模型中调整后的参数代入初始化函数中,获得所述第i个父模型中初始化的参数;根据所述第i个父模型的训练集和初始化的参数对所述第i个父模型进行训练,记录训练完成的第i个父模型的调整后的参数。4.根据权利要求1所述的方法,其特征在于,所述根据最后一个训练好的父模型训练所述孩子模型,获得用于翻译低资源语言的神经网络机器翻译模型,具体为:将最后一个训练好的父模型中调整后的参数代入初始化函数中,获得所述孩子模型中初始化的参数;根据所述孩子模型的训练集和初始化的参数对所述孩子模型进行训练,将训练好的孩子模型作为用于翻译低资源语言对的神经网络机器翻译模型。5.根据权利要求1所述的方法,其特征在于,所述将操作后的每种高资源语言对作为对应的父模型的训练集,将操作后的低资源语言对作为孩子模型的训练集,之前还包括:对所有高资源语言对和低资源语言对进行分词处理的步骤,具体为:对所有高资源...

【专利技术属性】
技术研发人员:孙茂松米尔阿迪力江·麦麦提刘洋栾焕博
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1