当前位置: 首页 > 专利查询>波音公司专利>正文

神经网络机器翻译模型的训练方法、装置及存储介质制造方法及图纸

技术编号:24854834 阅读:71 留言:0更新日期:2020-07-10 19:08
本申请公开了一种神经网络机器翻译模型的训练方法、装置及存储介质。该方法包括:分别对第一句子的头部和第二句子的头部添加标签,其中,第一句子和第二句子构成双语句子对,标签将第一句子和第二句子标识为以下四个方向中的一个方向:源端‑目标端、目标端‑源端、从左到右、从右到左;使用第一句子和第二句子构成四个方向上的训练模型;采用多任务训练方法,利用四个方向上的训练模型,对神经网络机器翻译模型中的单一目标训练函数进行训练。通过在四个方向上训练神经网络机器翻译模型,可以在减少模型参数的同时实现多个方向上的翻译任务。

【技术实现步骤摘要】
神经网络机器翻译模型的训练方法、装置及存储介质
本专利技术涉及机器翻译领域。具体地,本专利技术涉及形成神经网络机器翻译模型的训练方法、装置及存储介质。
技术介绍
机器翻译是指利用计算机将一种自然语言翻译成另一种具有相同语义的自然语言,它是人工智能和自然语言处理领域的重要研究方向之一。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。通常,机器翻译的系统框架可以分为两类:基于规则的机器翻译(RulebasedMachineTranslation,RBMT)和基于语料库的机器翻译(CorpusbasedMachineTranslation,CBMT)。其中CBMT又可分为基于实例的机器翻译(ExamplebasedMachineTranslation,EBMT)、基于统计的机器翻译(StatisticalbasedMachineTranslation,SMT)以及近年流行的利用深度训练模型所构建的神经网络机器翻译(NeuralMachineTranslation,NMT)。基于统计的机器翻译方法实际上将源文本和目标文本之间的翻译看成是一个概率对照的关系,试图用纯数学的概率统计来获取训练语料中的翻译对应关系。它的任务就是在所有可能的目标语言的句子中,寻找概率最大的句子作为翻译结果。统计机器翻译由最初的基于词的翻译模型,发展到基于短语的翻译模型、基于层次短语的翻译模型、基于句法的翻译模型和基于语义的翻译模型。神经机器翻译是指直接采用神经网络以端到端(End-to-End)方式进行翻译建模的机器翻译方法,其基本思想是使用神经网络直接将源语言映射成目标语言文本。英国牛津大学的NalKalchbrenner和PhilBlunsom于2013年首先提出了端到端的神经翻译模型。他们为机器翻译提出了一个“编码器-解码器”的新框架:给定一个源语言句子,首先使用一个编码器将其映射为一个连续、稠密的向量,然后再使用一个解码器将该向量转化为一个目标语言句子。随着深度训练技术的发展,神经机器翻译模型被广泛研究,并展现出了相较于统计机器翻译模型的巨大优势。神经机器翻译在翻译性能上的不断提升,也促进了工业界机器翻译的发展。Junczys-Dowmunt等人在联合国平行语料库(UnitedNationsParallelCorpusv1.0)30个语言对上开展了对比工作。实验表明,以BLEU值为评测指标,与传统的统计机器翻译相比,神经机器翻译具有压倒性的优势:神经机器翻译在27个语言对上超过了基于短语的统计机器翻译,仅在2个语言对上以微弱的劣势落败。值得注意的是,神经机器翻译在涉及汉语的翻译任务上比基于短语的统计机器翻译系统能够提高4至9个BLEU点,性能提高尤其显著。从2015年以来,神经网络机器翻译已经取代统计机器翻译成为百度、谷歌、搜狗等商用在线翻译系统的核心技术。近年来,研究者提出了各种新颖的神经网络组件以提高最终的翻译质量,如递归神经网络、卷积神经网络以及基于自注意力机制的神经网络。然而不管是哪一种形式,它们仍未脱离编码器-解码器的整体框架,即采用编码器编码源语言的信息,采用解码器编码目标语言的信息。这种语言相关的解码器-编码器模型框架没有利用编码器和解码器结构的相似性,一方面造成了大量参数的冗余,使得模型庞大难以训练;另一方面它只能执行一个方向上的翻译任务,没用充分利用双语平行数据。因此,如何利用模型的对偶性减少模型参数,并充分运用数据的对偶性,是一个非常值得研究的问题。
技术实现思路
本专利技术实施例提供了一种神经网络机器翻译模型的训练方法、装置及存储介质,以至少解决在机器翻译模型的训练过程中,大量参数的冗余,从而使得模型庞大难以训练的问题根据本专利技术实施例的一个方面,提供了一种神经网络机器翻译模型的训练方法,其特征在于,方法包括以下步骤:分别对第一句子的头部和第二句子的头部添加标签,其中,第一句子和第二句子构成双语句子对,标签将第一句子和第二句子标识为以下四个方向中的一个方向:源端-目标端、目标端-源端、从左到右、从右到左;使用第一句子和第二句子构成四个方向上的训练模型;采用多任务训练方法,利用四个方向上的训练模型,对神经网络机器翻译模型中的单一目标训练函数进行训练。通过在四个方向上训练神经网络机器翻译模型,可以在减少模型参数的同时实现多个方向上的翻译任务。在上述方法中,在采用多任务训练方法,利用四个方向上的训练模型,对神经网络机器翻译模型中的单一目标训练函数进行训练的步骤之后,还包括以下步骤:采用极大似然目标函数,使用梯度下降法对神经网络机器翻译模型的目标训练函数在四个方向上进行联合优化。通过在四个方向上进行联合优化,神经网络机器翻译模型可以训练到不同方向中的相关信息,从而改善机器翻译结果的精度。该方法在采用极大似然目标函数,使用梯度下降法对神经网络机器翻译模型的目标训练函数在四个方向上进行联合优化的步骤之后,还包括以下步骤:对于每一个测试句子,根据经训练的神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作为神经网络机器翻译模型的输出句子,根据解码句子中的标签,将输出句子还原成标准格式。神经网络机器翻译模型可以使用柱搜索方法将得分最高的解码句子作为神经网络机器翻译模型的输出句子,从而改善了翻译的准确性该方法在分别在构成双语句子对的第一句子的头部和第二句子的头部添加标签的步骤中:在作为神经网络机器翻译模型的输入句子的第一句子的头部或第二句子的头部添加源端-目标端或目标端-源端的标签,以指示输入句子是源语言还是目标语言;在作为神经网络机器翻译模型的输出句子的第一句子的头部或第二句子的头部添加从左到右或从右到左的标签,以指示输出句子的词语的排列方向是从右到左还是从左到右。通过将表明不同方向的标签添加在句子的头部,本方法可以在一个模型中实现四个方向上的翻译任务。该方法在分别在构成双语句子对的第一句子的头部和第二句子的头部添加标签的步骤中,包括:对第一句子和第二句子进行分词和词频统计处理,以统计源语言和目标语言的词频和占比情况,从而确定在神经网络机器翻译模型的输入端的翻译模型词汇表的大小和输出端的翻译模型词汇表的大小。在该方法中,神经网络机器翻译模型包括语言无关的表示器,并且神经网络机器翻译模型采用自注意力机制网络作为主体结构,语言无关的表示器包括编码器和解码器。在神经网络机器翻译模型中,基于对第一句子和第二句子的词频统计,对第一句子和第二句子中的词语进行降序排列,并且在输入端的翻译模型词汇表和输出端的翻译模型词汇表中具有相同排序的词语共享相同的词向量,语言无关的表示器的编码器的子层与解码器的子层具有对应关系,并且在具有对应关系的编码器的子层与解码器的子层之间共享所有参数。编码器的子层和解码器的子层各自包括:自注意力子层、层级正则子层、全连接子层。在该方法中,在采用极大似然目标函数,使用梯度下降法对神经网络机器翻译模型的目标训练函数在四个方向上进行联合优化的步骤中:被指示为源语本文档来自技高网
...

【技术保护点】
1.一种神经网络机器翻译模型的训练方法,其特征在于,所述方法包括以下步骤:/n分别对第一句子的头部和第二句子的头部添加标签,其中,所述第一句子和所述第二句子构成双语句子对,所述标签将所述第一句子和所述第二句子标识为以下四个方向中的一个方向:源端-目标端、目标端-源端、从左到右、从右到左;/n使用所述第一句子和所述第二句子构成所述四个方向上的训练模型;/n采用多任务训练方法,利用所述四个方向上的所述训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练。/n

【技术特征摘要】
1.一种神经网络机器翻译模型的训练方法,其特征在于,所述方法包括以下步骤:
分别对第一句子的头部和第二句子的头部添加标签,其中,所述第一句子和所述第二句子构成双语句子对,所述标签将所述第一句子和所述第二句子标识为以下四个方向中的一个方向:源端-目标端、目标端-源端、从左到右、从右到左;
使用所述第一句子和所述第二句子构成所述四个方向上的训练模型;
采用多任务训练方法,利用所述四个方向上的所述训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练。


2.根据权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,所述方法在采用多任务训练方法,利用所述四个方向上的训练模型,对所述神经网络机器翻译模型中的单一目标训练函数进行训练的步骤之后,还包括以下步骤:
采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化。


3.根据权利要求2所述的神经网络机器翻译模型的训练方法,其特征在于,在采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化的步骤之后,所述方法还包括以下步骤:
对于每一个测试句子,根据经训练的所述神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作为所述神经网络机器翻译模型的输出句子,根据所述解码句子中的所述标签,将所述输出句子还原成标准格式。


4.根据权利要求1所述的神经网络机器翻译模型的训练方法,其特征在于,在分别在构成双语句子对的第一句子的头部和所述第二句子的头部添加标签的步骤中:
在作为所述神经网络机器翻译模型的输入句子的所述第一句子的头部或所述第二句子的头部添加所述源端-目标端或所述目标端-源端的标签,以指示所述输入句子是源语言还是目标语言;
在作为所述神经网络机器翻译模型的输出句子的所述第一句子的头部或所述第二句子的头部添加所述从左到右或从右到左的标签,以指示所述输出句子的词语的排列方向是从右到左还是从左到右。


5.根据权利要求4所述的神经网络机器翻译模型的训练方法,其特征在于,在分别在构成双语句子对的第一句子的头部和所述第二句子的头部添加标签的步骤中,包括:
对所述第一句子和所述第二句子进行分词和词频统计处理,以统计所述源语言和所述目标语言的词频和占比情况,从而确定在所述神经网络机器翻译模型的输入端的翻译模型词汇表的大小和输出端的翻译模型词汇表的大小。


6.根据权利要求5所述的神经网络机器翻译模型的训练方法,其中,所述神经网络机器翻译模型包括语言无关的表示器,并且所述神经网络机器翻译模型采用自注意力机制网络作为主体结构,所述语言无关的表示器包括编码器和解码器。


7.根据权利要求6所述的神经网络机器翻译模型的训练方法,其中,在所述神经网络机器翻译模型中,基于对所述第一句子和所述第二句子的词频统计,对所述第一句子和所述第二句子中的词语进行降序排列,并且在所述输入端的翻译模型词汇表和所述输出端的翻译模型词汇表中具有相同排序的词语共享相同的词向量,所述语言无关的表示器的所述编码器的子层与所述解码器的子层具有对应关系,并且在具有对应关系的所述编码器的子层与所述解码器的子层之间共享所有参数。


8.根据权利要求7所述的神经网络机器翻译模型的训练方法,其中,所述编码器的子层和所述解码器的子层各自包括:自注意力子层、层级正则子层、全连接子层。


9.根据权利要求4所述的神经网络机器翻译模型的训练方法,其中,在采用极大似然目标函数,使用梯度下降法对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化的步骤中:
被指示为所述源语言的句子作为所述输入句子,被指示为所述目标语言的句子作为所述输出句子,计算第一极大似然目标函数;
被指示为所述目标语言的句子作为所述输入句子,被指示为所述源语言的句子作为所述输出句子,计算第二极大似然目标函数;
被指示为所述源语言的句子作为所述输入句子,被指示为词语的排列方向是从左到右的句子作为所述输出句子,计算第三极大似然目标函数;
被指示为所述源语言的句子作为所述输入句子,被指示为词语的排列方向是从右到左的句子作为所述输出句子,计算第四极大似然目标函数;
对所述第一极大似然目标函数、第二极大似然目标函数、第三极大似然目标函数、第四极大似然目标函数求和,得到目标优化函数,以对所述神经网络机器翻译模型的所述目标训练函数在所述四个方向上进行联合优化。


10.根据权利要求3所述的神经网络机器翻译模型的训练方法,对于每一个测试句子,根据经训练的所述神经网络机器翻译模型,使用柱搜索方法将得分最高的解码句子作为所述神经网络机器翻译模型的输出句子,根据所述解码句子中的所述标签,将所述输出句子还原成标准格式的步骤包括:
所述神经网络机器翻译模型在第一个时刻预测的所述测试句子的标签为从右到左,使用柱搜索方法实现从右到左方向上的解码得出从右到左的第一最终输出,并计算所述第一最终输出对应的第一联合极大似然得分;
所述神经网络机器翻译模型在第一个时刻预测的所述测试句子的标签为从左到右,使用柱搜索方法实现从左到右方向上的解码得出从左到右的第二最终输出,并计算所述第二最终输出对应的第二联合极大似然得分;
从所述第一联合极大...

【专利技术属性】
技术研发人员:周龙周玉杨里
申请(专利权)人:波音公司中国科学院自动化研究所
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1