当前位置: 首页 > 专利查询>苏州大学专利>正文

基于语法规约指导的神经机器翻译方法技术

技术编号:19745180 阅读:91 留言:0更新日期:2018-12-12 04:43
本发明专利技术涉及一种基于语法规约指导的神经机器翻译方法,为了得到更加精准的神经翻译模型而设计。本发明专利技术基于语法规约指导的神经机器翻译方法,本发明专利技术对源端和目标端都进行指导:在源端,添加了注意力损失来指导注意力集中在源端短语上;在目标端通过一层子网络来指导目标端词关注到合适的目标端短语上。网络的源端和目标端构成一个汇总损失,称为指导损失,用于指导NMT。本发明专利技术能够有效地改善神经机器翻译质量。

【技术实现步骤摘要】
基于语法规约指导的神经机器翻译方法
本专利技术具体涉及一种基于语法规约指导的神经机器翻译方法。
技术介绍
机器翻译是指借助计算机自动地将一种语言转化成另一种语言的技术。随着深度学习的发展和计算能力的增强,神经网络技术也被运用到机器翻译领域当中,神经机器翻译(NeuralMachineTranslation,简称NMT)受到了人们广泛的关注。随着注意力机制(AttentionMechanism)加入到神经机器翻译中,神经机器翻译逐渐兴起并且综合效果快速超过了统计机器翻译(StatisticMachineTranslation,简称SMT),这也使得NMT在产学研中得到了普遍的应用。国内外科研人员以此为基础逐步完善机器翻译模型,谷歌,百度等公司也逐步从SMT过渡到NMT,提升翻译效果,增强用户粘性。机器翻译的目标是打破语言屏障,增进不同国家不同文化之间的信息交流。随着国内外文化交流,经济贸易的增加,普适性的翻译系统需求也更加紧缺,如何让翻译系统达到信、达、雅的要求也是国内外科研人员追求的目标。机器翻译的主要两种系统介绍如下:基准系统:端对端的神经机器翻译(NMT)已经成为机器翻译领域的新范式[Sutskeveretal.,2014;Bahdanauetal.,2015]。通过给定的源端句子X=x1,x2,…x|X|,NMT直接对目标翻译Y的条件概率P(Y|X)建模。神经机器翻译通常由两部分组成:编码器和解码器,这两部分通常使用循环神经网络(RecurrentNeuralNetwork,简称RNN)来对序列建模,实际运用中通常使用的是门循环单元(GatedRecurrentUnit,简称GRU)[Choetal.,2014]或者长短时记忆单元(LongShort-TermMemory,简称LSTM)[HochreiterandSchmidhuber,1997]。在源端,编码器将源端序列通过正向和反向的RNN编码成隐藏层向量序列H=h1,h2,…,h|X|,解码端按概率分布预测每个单词:第j个目标端单词概率计算如下:P(yj|y<j,X)=g(sj,yj-1,cj)(2)g是用来计算输出概率yj非线性函数,sj是目标端隐藏层,上下文向量cj由目标端隐藏层sj-1和源端隐藏层H得到:其中Wa,Ua是权重矩阵。这种算法,通常也称为带有注意力机制的神经机器翻译,能够有效的对源端和目标端相关性进行建模。使用词对齐指导NMT训练:注意力机制能够通过生成源端单词和目标端词之间的对齐信息对源端句子动态编码,实验分析表明这种方式相比于传统的对齐模型,对齐效果更差。Liuetal.[2016],Chenetal.[2016]从重排序的角度分析和解释这个问题,并提出使用传统的对齐模型指导注意力机制,通过词对齐指导,提升对齐效果与翻译效果。使用外部平行短语表进行短语推荐:该方法需要借助于外部SMT的短语表,并且需要在词和短语推荐之间进行复杂的权衡。统计机器翻译(SMT)发展经历了单词模型,短语模型,句法模型三个阶段。其中,短语模型的提出是一次重要的变革,短语的引入使得翻译基本单元从词语级别转变为短语级别,丰富了基本单元内部的上下文信息,提升了基本单元的翻译忠实度。带有注意力机制的神经机器翻译模型以词为翻译的最小单元,未融合先验的短语信息。Wangetal.[2017],Tangetal.[2016],Stahlbergetal.[2016]提出使用SMT构建外部平行短语表来执行短语推荐或者短语限制解码,通过词和短语推荐的复杂权衡,提升了带有注意力机制的神经机器翻译效果。现有技术中,基准系统:注意力机制未添加指导,注意力易分散到源端所有单词。使用词对齐指导NMT训练:该方法虽然可以避免注意力分散,但却使注意力集中到过于狭窄的词的级别上。使用外部平行短语表进行短语推荐:该方法需要借助于外部SMT的短语表,并且需要在词和短语推荐之间进行复杂的权衡。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种通过构造合适的神经网络层、损失函数,获得更好的词对齐和短语对齐,从而显著提升最终的翻译质量的基于语法规约指导的神经机器翻译方法。为达到上述专利技术目的,本专利技术基于语法规约指导的神经机器翻译方法,包括:获取训练数据,基于语法规约计算源端训练数据的注意力层指导损失Δatt,目标端训练数据的生成层指导损失Δatt;对计算得到的源端训练数据的注意力层指导损失Δatt与目标端训练数据的生成层指导损失Δatt的和与句对(X,Y)的交叉熵损失分配不同的权重比例,定义网络整体损失具体计算公式为:loss=-(1-λ)*logP(Y|X)+λ*(Δatt+Δtgt)其中,-logP(Y|X)是交叉熵损失,λ是权重,用来分配交叉熵损失与两个指导损失之和的分配比例。进一步地,源端训练数据的注意力层指导损失Δatt的具体计算公式为:其中,αji计算了目标端j时刻单词对应源端i时刻单词注意力权重对应的注意力权重,lj为目标端词yj对应的源端短语最左边索引,rj为目标端词yj对应的源端短语最右边索引。γj为短语对的置信度:其中,n=rj-lj+1,为通过语法规约得到的词对齐的极大似然估计。进一步地,目标端训练数据的生成层指导损失Δatt的方法包括:对目标端短语的开始标0,短语其他部分标1,目标端短语的开始、短语其他部分的标签通过MLP子层预测得到:其中σ为sigmoid函数,sj-1为目标端隐藏层,Wb,ob为权重矩阵,输出pj∈[0,1]表示yi为1的概率,子层的指导损失Δtgt计算如下:Δtgt是为了用来衡量目标端短语真实标签与MLP子层预测标签之间的不一致程度。进一步地,训练时候是最小化损失函数,解码时候是最大化得分,J(θ)也就是对应的句子打分结果,解码时最大化借由上述方案,本专利技术基于语法规约指导的神经机器翻译方法至少具有以下优点:1、本专利技术提出的基于语法规约指导的NMT框架可以在短语级别上进行指导,从而可以将注意力聚焦到携带更丰富信息的上下文。2、本专利技术不需使用外部SMT资源,不需要在词和短语推荐间进行复杂的权衡策略,将短语级别的指导作为一种软指导,以指导NMT的源端和目标端的短语级别对齐。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。附图说明图1是本专利技术基于语法规约指导的神经机器翻译方法的实施例的一个ITGs同步语法树;图2是本专利技术基于语法规约指导的神经机器翻译方法的神经网络与语法规约指导的融合(GuidedNetwork);语法指导如图中虚线方框所示,源端短语(xi-2,xi-1,xi)对齐到目标端短语(yj-1,yj),序列x和序列y分别表示为源端和目标端序列,序列h和序列s分别表示x和y的隐藏层。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。短语规约生成的双语同步树,可以提供短语级别对齐信息用于指导神经机器翻译NMT,本专利技术对源端和目标端都进行指导:在源端,添加了注意力损失来指导注意力集中在源端短语上;在目标端通过一层子网络来指导目标端词关注到合适的目本文档来自技高网
...

【技术保护点】
1.一种基于语法规约指导的神经机器翻译方法,其特征在于,包括:获取训练数据,基于语法规约计算源端训练数据的注意力层指导损失Δatt,目标端训练数据的生成层指导损失Δatt;对计算得到的源端训练数据的注意力层指导损失Δatt与目标端训练数据的生成层指导损失Δatt的和与句对(X,Y)的交叉熵损失分配不同的权重比例,定义网络整体损失具体计算公式为:loss=‑(1‑λ)*logP(Y|X)+λ*(Δatt+Δtgt)其中,‑logP(Y|X)是交叉熵损失,λ是权重,用来分配交叉熵损失与两个指导损失之和的分配比例。

【技术特征摘要】
1.一种基于语法规约指导的神经机器翻译方法,其特征在于,包括:获取训练数据,基于语法规约计算源端训练数据的注意力层指导损失Δatt,目标端训练数据的生成层指导损失Δatt;对计算得到的源端训练数据的注意力层指导损失Δatt与目标端训练数据的生成层指导损失Δatt的和与句对(X,Y)的交叉熵损失分配不同的权重比例,定义网络整体损失具体计算公式为:loss=-(1-λ)*logP(Y|X)+λ*(Δatt+Δtgt)其中,-logP(Y|X)是交叉熵损失,λ是权重,用来分配交叉熵损失与两个指导损失之和的分配比例。2.根据权利要求1所述的基于语法规约指导的神经机器翻译方法,其特征在于,源端训练数据的注意力层指导损失Δatt的具体计算公式为:其中,αji计算了目标端j时刻单词对应源端i时刻单词注意力权重对应的注意力权重,lj为目标端词yj对应的源端短语最...

【专利技术属性】
技术研发人员:段湘煜王坤谭敏骆卫华张民
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1