一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法技术

技术编号:20622819 阅读:25 留言:0更新日期:2019-03-20 14:32
本文提出了一种基于Transformer模型的增强语义特征信息的蒙汉机器翻译方法。首先,本发明专利技术从蒙古文的语言特点出发,找出其在词干、词缀以及格的附加成分的特征,并将这些语言特征融入到模型的训练之中。其次,本发明专利技术以衡量两个单词间的相似程度的分布式表示为研究背景,综合分析了深度和密度、语义重合度对概念语义相似度的影响。本发明专利技术在翻译过程中,采用Transformer模型,所述Transformer模型为利用三角函数进行位置编码并基于增强型多头注意力机制构建的多层编码器‑解码器架构,从而完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系,消除递归和卷积。

A Method of Mongolian-Chinese Machine Translation Based on Transformer to Enhance Semantic Feature Information

In this paper, a method of Mongolian-Chinese machine translation based on Transformer model to enhance semantic feature information is proposed. Firstly, according to the linguistic characteristics of Mongolian, the invention finds out the features of the additional components of stem, affix and case, and integrates these linguistic features into the training of the model. Secondly, the present invention takes the distributed representation of measuring the similarity between two words as the research background, and comprehensively analyses the influence of depth, density and semantic coincidence on the concept semantic similarity. In the process of translation, the present invention adopts the Transformer model, which uses the triangular function to encode position and constructs a multi-layer encoder-decoder architecture based on the enhanced multi-head attention mechanism. Thus, it relies entirely on the attention mechanism to draw the global dependence relationship between input and output, eliminating recursion and convolution.

【技术实现步骤摘要】
一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
本专利技术属于机器翻译
,特别涉及一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法。
技术介绍
蒙古语是一种黏着语,隶属于阿尔泰语系。蒙古文书面文字有传统蒙古文和西里尔蒙古文,这里我们所研究的蒙汉翻译系统中的“蒙”指的是传统蒙古文到汉文的翻译。传统蒙古文也是一种拼音文字,字母的形态并不唯一,形态的变化与字母在单词中的位置相关,位置包括词的单独开头、词中和词尾。蒙古文的单词由词根(root)+词缀(suffix)的方式形成,词缀分为两类:一类用于缀接到词根的后面赋予原来的词以新的含义,叫做派生词缀,词根后面缀接一个或多个派生词缀就会形成词干(stem);另一类缀接到词干后面用于表达语法意义。蒙古文的名词、动词都存在时态、数、格等多种变化,这些变化同样是通过缀接词缀来实现,因此蒙古文词形变化非常复杂。此外,蒙古文的语序与汉语有很大的差别,蒙古文的动词在主语和谓语的后面,位于句子的末尾,而汉语中动词位于主语和宾语之间。与one-hot表示只使用向量的一个维度不同,单词的分布式表示,使用低维稠密实数向量来表示单词。在该低维向量空间中,可以方便地根据距离或角度等度量方式,衡量两个单词间的相似程度。另外,在技术层面上,在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。然而,Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。但是目前word2vec实现语义相关度计算时有一定的局限性,一方面使用待生成译文的局部上下文信息作为预测译文的依据,没有使用全局的上下文信息,所以对上下文信息的利用不充分,语义特征的提取还存在提升空间。另一方面,由于框架本身的结构限制了计算的并行化,计算效率有待于提高。传统的机器翻译系统,大多数是基于循环神经网络(RNN)、长短期记忆(LSTM)或者门控递归神经网络(GRU)的。在过去几年这些方法已经成为机器翻译等序列建模和转换问题最先进的方法。然而递归模型通常考虑沿输入和输出序列的符号位置的计算。将位置与计算时间中的步骤对齐,它们产生一系列在位置t输入的隐藏状态ht,同时也是先前隐藏状态ht-1的函数。这种固有的顺序特性排除了训练示例中的并行化,并行化在较长的序列长度中变得至关重要,因为内存约束限制了跨越示例的批处理。最近的工作通过分解技巧和基于条件的计算实现了计算效率的显著提高,同时在后者的情况下也提高了模型性能。然而,顺序计算的基本约束仍然存在。目前编码器-解码器框架是解决序列到序列问题的一个主流模型。模型使用编码器对源语言句子进行压缩表示,使用解码器基于源端的压缩表示生成目标语言句子。该结构的好处是可以实现两个句子之间端到端方式的建模,模型中所有的参数变量统一到一个目标函数下进行训练,模型表现较好。图1展示了编码器-解码器模型的结构,从底向上是一个机器翻译的过程。编码器和解码器可以选用不同结构的神经网络,比如RNN、CNN。RNN的工作方式是对序列根据时间步,依次进行压缩表示。使用RNN的时候,一般会使用双向的RNN结构。具体方式是使用一个RNN对序列中的元素进行从左往右的压缩表示,另一个RNN对序列进行从右向左的压缩表示。两种表示被联合起来使用,作为最终序列的分布式表示。该结构中,由于是对序列中的元素按顺序处理的,两个词之间的交互距离可以认为是他们之间的相对距离。随着句子的增长,相对距离的增大,对信息的处理存在明显的理论上限。使用CNN结构的时候,一般使用多层的结构,来实现序列局部表示到全局表示的过程。使用RNN建模句子可以看做是一种时间序列的观点,使用CNN建模句子可以看做一种结构化的观点。使用RNN结构的序列到序列模型主要包括RNNSearch、GNMT等,使用CNN结构的序列到序列模型主要有ConvS2S等,其体现的是一种从局部到全局的特征抽取过程,词之间的交互距离,与其相对距离成正比。距离较远的词只能在较高的CNN节点上相遇,才产生交互,这个过程可能会存在较多的信息丢失。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法,该系统完全基于注意力机制,完全消除了递归和卷积。实验表明,该系统在质量上更优越,同时更易于并行化,并且需要更少的时间进行训练,在120万蒙汉平行语料库的翻译任务中达到45.4BLEU,实现了较高的翻译质量。为了实现上述目的,本专利技术采用的技术方案是:一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,在翻译过程中采用Transformer模型,所述Transformer模型为利用三角函数进行位置编码并基于增强型多头注意力机制构建的多层编码器-解码器架构,从而完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系,消除递归和卷积。在翻译之前,为了便于深度学习神经网络更好地提取特征,先对数据进行预处理,所述对数据进行预处理是对蒙文语料中的词干、词缀和格的附加成分进行切割分离,以降低数据的稀疏性,同时对汉语进行字切分处理,找出蒙文在词干、词缀以及格的附加成分的语言特征,并将这些语言特征融入到训练之中。所述切割分离包括小粒度的词缀切分、大粒度的词干切分以及小规模的格的附加成分切分。对数据进行预处理后,综合深度、密度、语义重合度对概念语义相似度的影响,集成语义距离与信息内容的相似度算法建立相似度矩阵,然后进行主成分分析,将相似度矩阵转换成主成分变换矩阵,计算主成分贡献率,并将其作为权值进行加权处理,得到最终的概念语义相似度。所述相似度矩阵的公式表示为Xsim=(xi1,xi2,xi3,xi4,xi5)T,i=1,2,3,…,n所述最终的概念语义相似度计算表示公式为δsim=r1ysim1+r2ysim2+r3ysim3+r4ysim4+r5ysim5其中,Xsim表示相似度矩阵,xi1表示Ds,xi2表示xi3表示Zs,xi4表示Ss,xi5表示Is,n是被比较概念对集合中的概念词的对数,xi=(Dsi,Ksi,Zsi,Ssi,Isi),为主成分输入样本集合中的一个向量,其中每一维变量分别代表综合相似度计算模块中各部分语义相似度计算的结果,Dsi表示向量中第i维元素的语义距离与相似度之间的关系,Ksi表示向量中第i维元素的深度方面的语义相似度,Zsi表示向量中第i维元素的概念词c的密度影响因子,Ssi表示向量中第i维元素的语义重合度方面的相似度,Isi表示向量中第i维元素的信息内容方面的相似度;δsim表示概念语义相似度,ysim1,ysim2,ysim3,ysim4,ysim5为对相似度矩阵Xsim进行主成分分析所提取出的主成分,r1,r2,r3,r4,r5表示各主成分贡献率。所述多头注意力机制描述为查询和一组键值对映射到输出,其中查询、键、值和输出都是向量,输出被计算为值的加权和,分配给每个值的权重由查询与相应密钥的兼容性函数计算得到。本文档来自技高网
...

【技术保护点】
1.一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,在翻译过程中采用Transformer模型,所述Transformer模型为利用三角函数进行位置编码并基于增强型多头注意力机制构建的多层编码器‑解码器架构,从而完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系,消除递归和卷积。

【技术特征摘要】
1.一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,在翻译过程中采用Transformer模型,所述Transformer模型为利用三角函数进行位置编码并基于增强型多头注意力机制构建的多层编码器-解码器架构,从而完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系,消除递归和卷积。2.根据权利要求1所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,在翻译之前,先对数据进行预处理,所述对数据进行预处理是对蒙文语料中的词干、词缀和格的附加成分进行切割分离,以降低数据的稀疏性,同时找出蒙文在词干、词缀以及格的附加成分的语言特征,并将这些语言特征融入到训练之中。3.根据权利要求2所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,所述切割分离包括小粒度的词缀切分、大粒度的词干切分以及小规模的格的附加成分切分。4.根据权利要求1所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,对数据进行预处理后,综合深度、密度、语义重合度对概念语义相似度的影响,集成语义距离与信息内容的相似度算法建立相似度矩阵,然后进行主成分分析,将相似度矩阵转换成主成分变换矩阵,计算主成分贡献率,并将其作为权值进行加权处理,得到最终的概念语义相似度。5.根据权利要求4所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其特征在于,所述相似度矩阵的公式表示为Xsim=(xi1,xi2,xi3,xi4,xi5)T,i=1,2,3,…,n所述最终的概念语义相似度计算表示公式为δsim=r1ysim1+r2ysim2+r3ysim3+r4ysim4+r5ysim5其中,Xsim表示相似度矩阵,xi1表示Ds,xi2表示Ks,xi3表示Zs,xi4表示Ss,xi5表示Is,n是被比较概念对集合中的概念词的对数,xi=(Dsi,Ksi,Zsi,Ssi,Isi),为主成分输入样本集合中的一个向量,其中每一维变量分别代表综合相似度计算模块中各部分语义相似度计算的结果,Dsi表示向量中第i维元素的语义距离与相似度之间的关系,Ksi表示向量中第i维元素的深度方面的语义相似度,Zsi表示向量中第i维元素的概念词c的密度影响因子,Ssi表示向量中第i维元素的语义重合度方面的相似度,Isi表示向量中第i维元素的信息内容方面的相似度;δsim表示概念语义相似度,ysim1,ysim2,ysim3,ysim4,ysim5为对相似度矩阵Xsim进行主成分分析所提取出的主成分,r1,r2,r3,r4,r5表示各主成分贡献率。6.根据权利要求1所述基于Transformer的增强语义特征信息的蒙汉机器翻译方法,其...

【专利技术属性】
技术研发人员:苏依拉张振高芬王宇飞孙晓骞牛向华赵亚平卞乐乐
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:内蒙古,15

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1