当前位置: 首页 > 专利查询>苏州大学专利>正文

基于模拟未来时刻的翻译信息的神经机器翻译方法技术

技术编号:19745181 阅读:42 留言:0更新日期:2018-12-12 04:43
本发明专利技术涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法,为获得良好的神经机器翻译而设计。本发明专利技术模拟未来时刻的翻译信息,从未来翻译长度的角度和未来翻译所提供的上下文角度进行模拟,本发明专利技术显著提高了神经机器翻译模型NMT的翻译质量。

【技术实现步骤摘要】
基于模拟未来时刻的翻译信息的神经机器翻译方法
本专利技术属于机器学习
,具体涉及一种基于模拟未来时刻的翻译信息的神经机器翻译方法。
技术介绍
传统的机器翻译方法为统计机器翻译方法(StatisticalMachineTranslation,简称SMT),从大规模平行语料中统计诸如词对、平行短语对、平行句法结构等的信息,以建立针对翻译过程的统计模型。近年来,随着深度学习的发展,利用神经网络将源语言映射到目标语言的翻译模型,即神经机器翻译模型(NeuralMachineTranslation,简称NMT),显著提升了机器翻译的质量,超越了传统统计机器翻译方法的性能,成为目前工业界和学术界的主流方法。基准神经机器翻译系统为编码-解码框架,将源语言编码为隐藏向量信息,再把该隐藏向量信息解码为目标语言[Sutskeveretal.,2014;Bahdanauetal.,2015]。编码和解码功能均通过循环神经网络(RecurrentNeuralNetworks,简称RNNs)实现。这两个循环神经网络是通过一个注意力层(AttentionLayer)连接建模的,在翻译目标单词时检测其与源端语句相关的部分,这个过程称之为使用注意力机制(Attention)。神经机器翻译是一种端到端的翻译模型,它在给定源端语句X=x1,x2,...,x|X|的条件下直接对目标端语句Y=y1,y2,...,y|Y|的条件概率P(Y|X)进行建模:其中,源端语句X通过编码器编码为隐藏层向量H=h1,h2,...,h|x|,解码器根据条件概率逐字地预测出目标语句Y。第j个目标端单词的计算概率为:P(yj|y<j,X)=g(sj,yj-1,cj)其中,g是一个非线性概率函数,sj是目标端的隐藏层向量,cj是通过注意力机制cj=Att(sj-1,hi)得到的上下文向量,Att函数具体如下:其中,υTa、Wa、Ua是参数矩阵,这种注意力机制可以构建在生成目标端当前词时对源端所有词的注意力分布。基准神经机器翻译系统为编码-解码框架中解码过程按照自左向右的顺序依次解码,而没有考虑到未来时刻的翻译内容对当前时刻的翻译的影响。基准神经机器翻译系统是以自左向右的方式进行翻译的,这使得在翻译过程中,自右向左产生的目标端上下文信息从未被利用到。因此,对传统的神经机器翻译加上一个反向的解码器,可以探索神经机器翻译的双向解码。基于该思想,异步的双向解码方法被提出[ZhangXetal.,2018]。首先,该方法添加了一个反向解码器按照自右向左的顺序进行翻译,生成目标端隐藏层向量;其次,正向解码器按照自左向右的顺序进行翻译,每一步同时使用源端隐藏层向量和反向解码器生成的目标端隐藏层向量。通过这种新型的架构得到的模型能够充分地利用源端信息和目标端未来信息,提高翻译效果。异步双向解码[ZhangXetal.,2018]:该方法使用两遍解码:首先从右向左进行第一遍解码,即对句子从后向前进行翻译,从而可获得句子后部的翻译信息;然后再从左向右进行第二遍解码,即对句子从前向后进行翻译,并在这一过程中使用第一遍解码所获得的句子后部的翻译信息,即未来翻译信息。这一方法虽然使用了未来时刻的翻译信息,但是两遍解码过程消耗时间长、效率低,并且第一遍从后向前进行翻译的过程不符合语言的表达习惯。
技术实现思路
为了解决上述问题,本专利技术提供一种减少过长或者过短句子的产生以及利用目标端未来时刻隐藏层向量,为计算当前时刻的目标端词的概率分布提供信息帮助的基于模拟未来时刻的翻译信息的神经机器翻译方法。为达到上述专利技术目的,本专利技术基于模拟未来时刻的翻译信息的神经机器翻译方法,包括:基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失losslength进行训练,得到固定模型参数M1;固定模型参数M1,最小化损失lossgold,得到Z’和c’i相关模型参数M2;固定模型参数M1和M2,最小化损失losscontext使得目标词的预测概率分布ppredicate接近于理想概率分布pgold。进一步地,训练一个多层感知机MLP,模拟BP:pBP=σ(MLP(concat(si,ci)))losslength=(pBP-BP)2其中,si是当前时刻,即i时刻的解码器隐藏层向量,ci是当前时刻的上下文向量,concat是将两个向量相连的操作,σ是Sigmoid函数;pBP是模拟的长度惩罚,通过优化损失函数losslength使模拟的长度惩罚pBP接近真实的长度惩罚BP;当前机器翻译结果的长度小于参考答案的长度,其惩罚BP为:其中,c为当前时刻目标端翻译的句长,r为参考答案的句长。进一步地,训练一个多层感知机MLP’以模拟未来目标端上下文向量c’i对目标端词的概率分布的贡献,用一个预测的概率分布ppredicate来模拟pgold:ppredicate=MLP’(concat(si,ci))losscontext=-(pglod)*log(ppredicate)其中,ppredicate是基于将基准系统的目标端隐藏层向量si和源端上下文向量ci相连,通过MLP’层所预测的目标词的概率分布,通过优化交叉熵损失函数losscontext使得ppredicate和pgold相接近,pgold为当前时刻目标端词的概率分布;进一步地,未来目标端上下文向量c’i的获取方法包括:在目标端添加了一个双向编码器,对目标端Y=y1,y2,...,y|Y|进行编码得到目标端隐藏层向量序列Z=z1,z2,...,z|Y|;针对当前翻译时刻i,构建基准系统目标端隐藏层向量si对zi+1,…,zi+k的注意力机制,从而获得未来目标端上下文向量c’i:ci'=Att(si,Z')其中,si是当前时刻基准系统目标端隐藏层向量,Z’=zi+1,zi+2,...,zi+k是Z序列中i时刻的未来时刻的隐藏层向量,Att是注意力机制函数,k(1≤k≤|Y|-i)表示考虑未来k步;在获得未来目标端上下文向量c’i之后,通过以下方式将其作为未来信息贡献到当前词的概率分布计算中:pgold=Softmax(concat(si,ci'))lossgold=-log(pgold(yi))其中,c’i同基准系统目标端隐藏层向量si相连,经Softmax层输出当前时刻目标端词的概率分布pgold。通过最小化损失函数lossgold,使得正确答案yi的概率在概率分布pgold中最大化,从而优化未来目标端上下文向量c’i对概率分布pgold的贡献。与现有技术相比,本专利技术基于模拟未来时刻的翻译信息的神经机器翻译方法的有益效果在于:本专利技术模拟未来时刻的翻译信息,模拟未来翻译的长度,根据目标端句子长度控制翻译结果长度,减少过长或者过短句子的产生。模拟未来目标端上下文向量,利用目标端未来时刻隐藏层向量,为计算当前时刻的目标端词的概率分布提供信息帮助。分别从未来翻译长度的角度和未来翻译所提供的上下文角度进行模拟,显著提高了神经机器翻译模型NMT的翻译质量。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。附图说明图1为本专利技术的基于模拟未来时刻的本文档来自技高网
...

【技术保护点】
1.一种基于模拟未来时刻的翻译信息的神经机器翻译方法,其特征在于,包括:基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失losslength进行训练,得到固定模型参数M1;固定模型参数M1,最小化损失lossgold,得到Z’和c’i相关模型参数M2;固定模型参数M1和M2,最小化损失losscontext使得目标词的预测概率分布ppredicate接近于理想概率分布pgold。

【技术特征摘要】
1.一种基于模拟未来时刻的翻译信息的神经机器翻译方法,其特征在于,包括:基于训练数据在基准的神经机器翻译算法中加入模拟未来翻译长度的损失losslength进行训练,得到固定模型参数M1;固定模型参数M1,最小化损失lossgold,得到Z’和c’i相关模型参数M2;固定模型参数M1和M2,最小化损失losscontext使得目标词的预测概率分布ppredicate接近于理想概率分布pgold。2.根据权利要求1所述的基于模拟未来时刻的翻译信息的神经机器翻译方法,其特征在于,训练一个多层感知机MLP,模拟BP:pBP=σ(MLP(concat(si,ci)))losslength=(pBP-BP)2其中,si是当前时刻,即i时刻的解码器隐藏层向量,ci是当前时刻的上下文向量,concat是将两个向量相连的操作,σ是Sigmoid函数;pBP是模拟的长度惩罚,通过优化损失函数losslength使模拟的长度惩罚pBP接近真实的长度惩罚BP;当前机器翻译结果的长度小于参考答案的长度,其惩罚BP为:其中,c为当前时刻目标端翻译的句长,r为参考答案的句长。3.根据权利要求1所述的基于模拟未来时刻的翻译信息的神经机器翻译方法,其特征在于,训练一个多层感知机MLP’以模拟未来目标端上下文向量c’i对目标端词的概率分布的贡献,用一个预测的概率分布ppredicate来模拟pgold:ppredicate=MLP’(concat(si,ci))losscontext=-(pglod)*log(ppredicate)其中,ppredi...

【专利技术属性】
技术研发人员:段湘煜汪琪骆卫华张民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1