一种基于树到序列的蒙汉机器翻译方法技术

技术编号:23191363 阅读:40 留言:0更新日期:2020-01-24 16:25
本发明专利技术一种基于树到序列的蒙汉机器翻译方法,采用树到序列NMT模型,扩展了具有源侧短语结构的序列到序列模型,在模型中加入了自注意力机制,这种自注意力机制不仅可以使得解码器在每一步主动查询最相关的信息,并且还大大缩短了信息流动的距离,另外它可以使得解码器在生成翻译的单词的同时能和源语句的短语以及单词进行对齐。120万蒙汉双语平行语料数据集的实验结果表明,本发明专利技术的模型明显优于序列到序列的注意力NMT模型,并且与最先进的树到串SMT系统相比更胜一筹。

A method of Mongolian Chinese machine translation based on tree to sequence

【技术实现步骤摘要】
一种基于树到序列的蒙汉机器翻译方法
本专利技术属于机器翻译
,特别涉及一种基于树到序列的蒙汉机器翻译方法。
技术介绍
机器翻译(MT)一直是最复杂的语言处理问题之一,神经机器翻译(NMT)的最新进展使得使用简单的端到端架构进行翻译成为可能。在编码器-解码器模型中,编码器读取整个源字序列以产生固定长度的向量,然后解码器从向量生成目标字。编码器-解码器模型已经扩展了注意力机制,它允许模型共同学习源语言和目标语言之间的软对齐。NMT模型在英语-法语和英语-德语翻译任务中取得了最新成果。然而,对于结构较远的语言对(如汉语–蒙语),NMT是否与传统的统计机器翻译(SMT)方法在翻译任务中具有竞争力还有待观察。表1显示了一对汉语和蒙语的平行句子。在许多方面,汉语和蒙语在语言上相距遥远,它们具有不同的句法结构,单词和短语在不同的词汇单元中定义。在SMT中,已知将源语言的句法成分结合到模型中可改善单词对齐和翻译准确度。但是,现有的NMT模型不允许执行这种对齐。表1蒙汉及其翻译语序问题
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于树到序列的蒙汉机器翻译方法,采用注意NMT模型来利用句法信息,在源句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的向量表示并在将输入短语和单词与输出对齐的同时对其进行解码。为了实现上述目的,本专利技术采用的技术方案是:一种基于树到序列的蒙汉机器翻译方法,采用编码器-解码器结构的NMT模型作为翻译流程的整体框架,所述编码器由序列编码器和基于树的编码器组成,序列编码器和基于树的编码器分别生成一个句子向量,其中,所述基于树的编码器中,基于头部驱动的短语结构语法,源语句由多个短语单元组成,并表示为二叉树,基于树的编码器为使用transformer构造的Tree-transformer结构,二叉树中的每个结点用transformer单元表示,从而在源语句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的由结构信息组成的向量表示,序列编码器得到正常句子的向量表示,基于树的编码器得到该句子的短语结构的向量表示,初始解码器s1具有两个子单元,分别是最终的序列编码器单元hn和最终的基于树的编码器单元初始化叶结点时用最终的序列编码器单元hn,初始化父结点时用基于树的编码器单元所述基于树的编码器是在标准的序列编码器中构建,二者的架构关系如图3。所述基于树的编码器使用左右子隐藏单元和计算第k个短语的第k个父隐藏单元如下所示:其中ftree是非线性函数;在初始化基于树的编码器单元时,使用序列transformer单元,并使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元。在初始化基于树的编码器单元时,采用序列transformer单元表示,即h0=0;使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元的公式为tree表示非线性函数。初始解码器其中gtree与ftree具有相同的功能,该初始化允许解码器从序列数据和短语结构中捕获信息,使用Tree-transformer初始化解码器,将多种源语言翻译成一种目标语言,当语法分析器无法输出句子的解析树时,通过设置来使用序列编码器对句子进行编码。所述transformer中加入自注意力机制,为输入的语句向量的每一个字学习一个权重,在自注意力机制中每个单词有3个不同的向量,分别为Q,K,V向量,长度均为64,通过3个不同的权值矩阵由嵌入向量X乘以三个不同的权值矩阵WQ,WK,WV得到,其中嵌入向量X由输入单词转换得到,三个权值矩阵的尺寸均是512×64。所述解码器中的transformer还加入编码器-解码器注意力机制,在此机制中,Q来自于解码器的上一个输出,K和V来自于编码器的输出,在机器翻译时,解码过程是一个顺序操作的过程,即当解码第k个特征向量时,只能看到第k-1及其之前的结果。本专利技术采用BlackOut训练NMT模型。在解码过程中,使用波束搜索来解码源语句x的目标句子,并计算目标句子的对数似然的总和y=(y1,y2,...ym)作为波束得分:利用波束搜索中的句子长度统计,目标句子的长度与源语句的长度相关,将每个候选人的分数重新定义如下:Lx,y=logP(len(y)|len(x))其中Lx,y是给定源句长度len(x)的目标句子长度的条件概率的惩罚,它允许模型通过考虑目标句子的长度来解码句子;最终,在借助GIZA++工具将输入短语和单词与输出对齐的同时,实现对源语句的解码。与现有技术相比,本专利技术基于树到序列的方法,采用注意NMT模型来利用句法信息,在源句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的向量表示,可改善单词对齐和翻译准确度。附图说明图1是一对汉语和蒙语的平行句子对照示意图。图2是基于注意力的编码器-解码器模型示意图。图3是基于注意力的Tree-to-sequenceNMT模型示意图。图4是一个句子翻译例子和本专利技术模型的注意关系示意图。图5是transformer编码器结构示意图。图6是transformer解码器结构示意图。具体实施方式下面结合附图和实施例详细说明本专利技术的实施方式。图1显示了一对汉语和蒙语的平行句子。在许多方面,汉语和蒙语在语言上相距遥远,它们具有不同的句法结构,单词和短语在不同的词汇单元中定义。本专利技术目的在于利用轻对齐算法将已知源语言的句法成分结合到模型中,以改善单词对齐和翻译准确度。为实现上述目的,本专利技术采用一种注意NMT模型来利用句法信息,依然采用编码器-解码器模型作为翻译流程的整体框架,在源句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的向量表示并在将输入短语和单词与输出对齐的同时对其进行解码。为了描述本专利技术基于树到序列的注意NMT模型,首先从编码器-解码器模型介绍:1、树到序列建模1.1编码器-解码器模型NMT是数据驱动机器翻译的端到端方法,NMT模型直接估计给定大量源语句和目标语句对(x,y)的条件概率P(y|x)。NMT模型由编码器和解码器组成,被称为编码器-解码器模型。在编码器-解码器模型中,语句被视为由一系列字构成。在编码器处理中,编码器将每个源字x=(x1,x2,...,xn)嵌入到d维向量空间中。然后,解码器在给定关于编码器提供的源语句的信息的情况下,输出目标语言中的字序列y=(y1,y2,...,ym)。这里,n和m分别是源语句和目标语句的长度,xn、ym分别表示源语句和目标语句中第m和第n个字。transformer网络结构允许有效地将顺序数据嵌入向量空间,在编码器中,给定第i个输入xi和先前隐藏单元hi-1∈Rd×1,计算第i个本文档来自技高网...

【技术保护点】
1.一种基于树到序列的蒙汉机器翻译方法,采用编码器-解码器结构的NMT模型作为翻译流程的整体框架,其特征在于,所述编码器由序列编码器和基于树的编码器组成,序列编码器和基于树的编码器分别生成一个句子向量,其中,所述基于树的编码器中,基于头部驱动的短语结构语法,源语句由多个短语单元组成,并表示为二叉树,基于树的编码器为使用transformer构造的Tree-transformer结构,二叉树中的每个结点用transformer单元表示,从而在源语句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的由结构信息组成的向量表示,初始解码器s

【技术特征摘要】
1.一种基于树到序列的蒙汉机器翻译方法,采用编码器-解码器结构的NMT模型作为翻译流程的整体框架,其特征在于,所述编码器由序列编码器和基于树的编码器组成,序列编码器和基于树的编码器分别生成一个句子向量,其中,所述基于树的编码器中,基于头部驱动的短语结构语法,源语句由多个短语单元组成,并表示为二叉树,基于树的编码器为使用transformer构造的Tree-transformer结构,二叉树中的每个结点用transformer单元表示,从而在源语句的短语结构之后,以自下而上的方式递归地编码句子以产生句子的由结构信息组成的向量表示,初始解码器s1具有两个子单元,分别是最终的序列编码器单元hn和最终的基于树的编码器单元初始化叶结点时用最终的序列编码器单元hn,初始化父结点时用基于树的编码器单元


2.根据权利要求1所述基于树到序列的蒙汉机器翻译方法,其特征在于,所述基于树的编码器是在标准的序列编码器中构建。


3.根据权利要求2所述基于树到序列的蒙汉机器翻译方法,其特征在于,所述基于树的编码器使用左右子隐藏单元和计算第k个短语的第k个父隐藏单元如下所示:



其中ftree是非线性函数;在初始化基于树的编码器单元时,使用序列transformer单元,并使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元。


4.根据权利要求3所述基于树到序列的蒙汉机器翻译方法,其特征在于,在初始化基于树的编码器单元时,采用序列transformer单元表示,即h0=0;使用tree-transformer来计算具有两个子transformer单元的父结点的transformer单元的公式为tree表示非线性函数。


5.根据权利要求3所述基于树到序列的蒙汉机器翻译方法,其特征在于,初始解码器其中gtree与ftree具有相同的功...

【专利技术属性】
技术研发人员:苏依拉薛媛赵旭卞乐乐范婷婷张振
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙;15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1