一种基于动态配置解码的神经机器翻译方法技术

技术编号:21454171 阅读:38 留言:0更新日期:2019-06-26 04:51
本发明专利技术的一种基于动态配置解码的神经机器翻译方法,在Transformer模型的基础上增加基于卷积神经网络的决策模型,把编码获得的编码信息作为输入送入决策模型,决策模型对编码信息进行卷积、池化和归一化处理,输出相应的解码配置;根据解码配置用已训练好的解码器进行解码,对选取的解码配置进行打分;根据打分结果采用增强学习的方法来改善决策模型,获得训练好的决策模型;采用训练好的改进的自注意力机制的模型进行翻译,输出准确率较高的翻译译文。本发明专利技术使用的决策模型小,训练代价低,其通过在已经训练好的机器翻译模型上以端到端的方式训练得到,而无需重新训练整个机器翻译模型。

【技术实现步骤摘要】
一种基于动态配置解码的神经机器翻译方法
本专利技术属于机器翻译
,涉及一种基于动态配置解码的神经机器翻译方法。
技术介绍
神经机器翻译技术目前采用基于编码器-解码器框架的神经网络来进行建模。首先,输入的源语句使用网络的编码器来得到一个固定维度的向量,然后网络的解码器使用这个向量逐词地生成对应的翻译结果。这种方法已经在许多不同语种的互译中达到了最佳翻译性能。在神经网络的解码器生成翻译结果的时候,通常有许多参数来控制解码器的行为。比如解码器会产生多个可能的翻译结果以及相应的分数。一般我们会挑选其中得分最高的翻译结果,但是很多情况下网络性能不够好,我们需要利用长度比这个参数来对这些得分进行一些调整,以防止太短或者太长的翻译结果被挑选到。一个使用长度比进行得分调整的示例如下:正确答案:她有许多漂亮的衣服翻译结果1:她有许多漂亮的衣服结果1得分:-0.1-0.2-0.15-0.13-0.1翻译结果2:有许多衣服结果2得分:-0.12-0.15-0.1对于翻译结果1来说,它的总得分是(-0.1+-0.2+-0.15+-0.13+-0.1)/5=-0.68/5=-0.136,其中5是翻译结果1的长度,而翻译结果2的总得分是(-0.12+-0.15+-0.1)/3=-0.37/3=-0.123。因为翻译结果2的得分比翻译结果1高,解码器会挑选翻译结果2作为最终的输出。显然,翻译结果1更接近正确答案,而翻译结果2相比起来太短了。长度比这个参数则在总得分的基础上把翻译结果的长度考虑进去。在长度比等于1.5的情况下,翻译结果1的得分现在是-0.68/51.5=-0.06,其中分母5是翻译结果1的长度,即词数。相应的翻译结果2的得分变为-0.37/31.5=-0.07。在这个得分的基础上挑选,解码器将会选择翻译结果1作为最终的输出。除了长度比以外,解码器还有许多其他的参数来控制其不同的行为,比如束大小控制了解码器搜索的范围,解码长度限制了最终翻译结果的词数,等等。在实际应用中,解码器通常使用一个全局统一的参数配置来进行生成翻译结果,即不论什么样的源语句被输入进来,它所使用的参数配置都是不变的。而实际上不同的源语句它对应的最优的参数配置是各不相同的,比如有的句子需要倾向于生成短的翻译,而另外一些句子则倾向生成长的翻译。一个对不同源语句使用不同长度比设置的示例如下:源语言1:关心目标语1:takecareof源语言2:更容易目标语2:easier对于源语言1来说,它只有一个词,而它的正确翻译有三个词,因此生成翻译的时候解码器应该倾向生成长翻译,即更大的长度比。而对于源语言2来说,它有两个词,而正确翻译只有一个词,因此解码器应该倾向生成短翻译,即更小的长度比。因此,目前亟需一种决策方法,可根据不同的源语句选取对应的最优的参数配置。
技术实现思路
本专利技术的目的是提供一种基于动态配置解码的神经机器翻译方法,以解决现有技术中神经机器翻译的解码技术中未能对不同的输入源语句设定不同的参数配置,而导致网络产生错误的翻译结果的问题。本专利技术提供一种基于动态配置解码的神经机器翻译方法,包括如下步骤:步骤1:在自注意力机制的Transformer模型的编码器和解码器之间增加决策模型,构成改进的自注意力机制模型,所述决策模型基于卷积神经网络建立;步骤2:输入双语句子级平行数据,分别对源语和目标语进行分词处理,获得分词后的双语平行句对,对改进的自注意力机制模型的编码器和解码器进行训练;步骤3:用训练好的编码器对分词后的双语平行句对的源语句子按时序进行编码,获取隐藏层上每个时序的状态,即每个时序下不同层的编码信息;步骤4:把获得的编码信息作为输入送入决策模型,决策模型对编码信息进行卷积、池化和归一化处理,输出相应的解码配置;步骤5:根据决策模型输出的解码配置使用已经训练好的解码器进行解码,并对选取的解码配置进行打分;步骤6:根据评价标准给出的分数,采用增强学习的方法来改善决策模型,获得训练好的决策模型;步骤7:向改进的自注意力机制的模型的编码器输入源语句,将获得的编码信息送入决策模型,解码器根据决策模型输出的解码配置进行翻译。在本专利技术的基于动态配置解码的神经机器翻译方法中,步骤2中输入的双语句子级平行数据为双语互译的句对集合,每个句对由源语句子和目标语句子组成。在本专利技术的基于动态配置解码的神经机器翻译方法中,步骤2中采用极大似然方法对改进的自注意力机制模型的编码器和解码器进行训练。在本专利技术的基于动态配置解码的神经机器翻译方法中,所述步骤3具体为:给定一个源语句,编码器采用N个非线性变换层进行编码,最终获得如下编码信息:其中,N是编码器包含的非线性变换层的层数,T是输入源语句的长度,H的每个元素是一个长度为C的词向量。在本专利技术的基于动态配置解码的神经机器翻译方法中,所述步骤4具体为:步骤4.1:对输入的编码信息H进行卷积操作;步骤4.2:对卷积的输出进行池化操作;步骤4.3:重复多次卷积和池化操作,输出三维张量其中T1<T,N1<N,使用max-over-timepooling方法在三维张量U的T1维度进行降维处理,获得二维矩阵步骤4.4:重构U1为一维向量其中L=N1×C1,然后将U2输入到全连接层处理,进行如下计算:Z=W2·f(W1·U2+b1)+b2其中W1是形状为(D,L)的实数矩阵,b1是长度为D的实数向量,W2是形状为(O,D)的实数矩阵,b2是长度为O的实数向量,Z是长度为O的实数向量,同时O也是所有可选配置的数目,f是非线性激活函数;步骤4.5:将Z代入softmax函数,获得长度为O的实数向量P,P的每个元素代表待挑选的对应配置的概率,选择概率最高的配置作为解码配置输出。在本专利技术的基于动态配置解码的神经机器翻译方法中,所述步骤5具体为:步骤5.1:采用束搜索的方法来进行解码;步骤5.2:采用BLEU评价指标对翻译结果进行打分。在本专利技术的基于动态配置解码的神经机器翻译方法中,所述步骤6具体采用策略梯度法或Q学习法来改善决策模型。本专利技术的一种基于动态配置解码的神经机器翻译方法,至少具有以下有益效果:1.本专利技术方法在机器翻译模型中引入了一个新的决策模型,能够根据不同的源语言输入自动生成合适的解码配置。2.本专利技术使用的决策模型小,训练代价低,其通过在已经训练好的机器翻译模型上以端到端的方式训练得到,而无需重新训练整个机器翻译模型。附图说明图1是本专利技术的一种基于动态配置解码的神经机器翻译方法的流程图;图2是本专利技术的改进的自注意力机制模型的结构示意图;图3是本专利技术的决策模型的结构图。具体实施方式如图1所示本专利技术的一种基于动态配置解码的神经机器翻译方法,包括如下步骤:步骤1:在自注意力机制的Transformer模型的编码器和解码器之间增加决策模型,构成改进的自注意力机制模型,所述决策模型基于卷积神经网络建立。图2是本专利技术的改进的自注意力机制模型的结构示意图,在Transformer模型的基础上增加了决策模型,通过决策模型根据不同的源语言输入自动生成合适的解码配置,解码器再根据解码配置进行解码操作,可提高翻译的准确度。步骤2:输入双语句子级平行数据,分别对源语和目标语进行分词处理,获得分词后的双语平行句对,对改进的自注意力机制模型的编码器和本文档来自技高网
...

【技术保护点】
1.一种基于动态配置解码的神经机器翻译方法,其特征在于,包括如下步骤:步骤1:在自注意力机制的Transformer模型的编码器和解码器之间增加决策模型,构成改进的自注意力机制模型,所述决策模型基于卷积神经网络建立;步骤2:输入双语句子级平行数据,分别对源语和目标语进行分词处理,获得分词后的双语平行句对,对改进的自注意力机制模型的编码器和解码器进行训练;步骤3:用训练好的编码器对分词后的双语平行句对的源语句子按时序进行编码,获取隐藏层上每个时序的状态,即每个时序下不同层的编码信息;步骤4:把获得的编码信息作为输入送入决策模型,决策模型对编码信息进行卷积、池化和归一化处理,输出相应的解码配置;步骤5:根据决策模型输出的解码配置使用已经训练好的解码器进行解码,并对选取的解码配置进行打分;步骤6:根据评价标准给出的分数,采用增强学习的方法来改善决策模型,获得训练好的决策模型;步骤7:向改进的自注意力机制的模型的编码器输入源语句,将获得的编码信息送入决策模型,解码器根据决策模型输出的解码配置进行翻译。

【技术特征摘要】
1.一种基于动态配置解码的神经机器翻译方法,其特征在于,包括如下步骤:步骤1:在自注意力机制的Transformer模型的编码器和解码器之间增加决策模型,构成改进的自注意力机制模型,所述决策模型基于卷积神经网络建立;步骤2:输入双语句子级平行数据,分别对源语和目标语进行分词处理,获得分词后的双语平行句对,对改进的自注意力机制模型的编码器和解码器进行训练;步骤3:用训练好的编码器对分词后的双语平行句对的源语句子按时序进行编码,获取隐藏层上每个时序的状态,即每个时序下不同层的编码信息;步骤4:把获得的编码信息作为输入送入决策模型,决策模型对编码信息进行卷积、池化和归一化处理,输出相应的解码配置;步骤5:根据决策模型输出的解码配置使用已经训练好的解码器进行解码,并对选取的解码配置进行打分;步骤6:根据评价标准给出的分数,采用增强学习的方法来改善决策模型,获得训练好的决策模型;步骤7:向改进的自注意力机制的模型的编码器输入源语句,将获得的编码信息送入决策模型,解码器根据决策模型输出的解码配置进行翻译。2.如权利要求1所述的基于动态配置解码的神经机器翻译方法,其特征在于,步骤2中输入的双语句子级平行数据为双语互译的句对集合,每个句对由源语句子和目标语句子组成。3.如权利要求1所述的基于动态配置解码的神经机器翻译方法,其特征在于,步骤2中采用极大似然方法对改进的自注意力机制模型的编码器和解码器进行训练。4.如权利要求1所述的基于动态配置解码的神经机器翻译方法,其特征在于,所述步骤3具体为:...

【专利技术属性】
技术研发人员:王强李炎洋肖桐朱靖波
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1