基于深层神经网络翻译模型的解码方法技术

技术编号:19140014 阅读:30 留言:0更新日期:2018-10-13 08:39
本发明专利技术涉及语言处理领域,提出了一种基于深层神经网络翻译模型的解码方法,旨在解决机器翻译模型中模型训练复杂度高、训练难度大解码速度慢等问题。该方法的具体实施方式包括:对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。本发明专利技术提升了模型翻译质量,提高了模型解码速度。

Decoding method based on deep neural network translation model

The invention relates to the field of language processing, and proposes a decoding method based on deep neural network translation model, aiming at solving the problems of high training complexity, difficult training and slow decoding speed in machine translation model. The specific implementation of the method includes: processing the translated sentences by word segmentation to get the source language vocabulary; step 2, aligning the corpus in the preset translation model vocabulary with the automatic alignment tool to get the target language words aligned with the source language vocabulary; step 3, based on the items obtained in step 2 The target dynamic vocabulary of the sentences to be translated is determined by marking up the language words, and the sentences decoded by the column search method are used as the output of the translation model according to the pre-constructed translation model. The translation model is a deep neural network based on the threshold residual mechanism and the parallel attention mechanism. The invention improves the quality of the model translation and improves the decoding speed of the model.

【技术实现步骤摘要】
基于深层神经网络翻译模型的解码方法
本专利技术涉及自然语言处理
,特别涉及一种基于深层神经网络翻译模型的解码方法。
技术介绍
机器翻译又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种具有相同语义的自然语言(目标语言)的过程。机器翻译就是实现从源语言到目标语言转换的过程。机器翻译的系统框架可以分为两类:基于规则的机器翻译(RBMT)和基于语料库的机器翻译(CBMT)。其中CBMT又可分为基于实例的机器翻译(EBMT)、基于统计的机器翻译(SMT)以及近年流行的利用深度学习模型所构建的神经网络机器翻译(NMT)。其中,基于统计的机器翻译方法是将源文本和目标文本之间的翻译看成是一个概率对照的关系,试图用纯数学的概率统计来获取学习语料中的翻译对应关系;其任务就是在所有可能的目标语言的句子中,寻找概率最大的句子作为翻译结果。统计机器翻译由最初的基于词的翻译模型,发展到基于短语的翻译模型、基于层次短语的翻译模型、基于句法的翻译模型和基于语义的翻译模型。神经网络机器翻译是指采用神经网络以端到端(End-to-End)方式进行翻译建模的机器翻译方法,其基本思想是使用神经网络直接将源语言映射成目标语言文本。虽然端到端神经网络机器翻译在近年来获得了迅速的发展,但仍存在许多重要问题有待解决。比如训练复杂度高、训练难度大、存在“梯度消失”问题,解码速度慢等问题。神经网络模型的深度对其效果有着显著的影响,然而,目前基于端到端的神经网络机器翻译方法往往由于梯度传递和训练难度等问题,导致深层的机器翻译模型无法达到翻译质量的提升。实验发现,直接简单地提高神经网络机器翻译模型的层数,翻译质量反而出现下降。在深层模型的基础上加入残差网络连接,只能在一定程度上增强模型梯度流的纵向更新。由于模型层数的加深,模型参数的增加和较大词汇表导致了深层模型的解码速度出现下降的问题。
技术实现思路
为了解决现有技术中的上述问题,即为了解决深层神经网络机器翻译模型中训练困难和解码慢的问题,本申请提供了一种基于深层神经网络翻译模型的解码方法,以解决上述问题。本申请提供了基于深层神经网络翻译模型的解码方法,该方法包括如下步骤:步骤1,对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与上述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出上述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为上述翻译模型的输出;其中,上述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。在一些示例中,所述翻译模型,其训练过程包括:对训练用数据中的双语句子对进行分词和词频统计,确定所述翻译模型词汇表大小;采用极大似然目标函数作为约束函数对所述初始深层神经网络翻译模型进行参数训练;其中,所述双语句子对为存在对应关系的一对源语言语句和目标语言语句。在一些示例中,上述翻译模型词汇表包括目标端词汇表和源端词汇表;上述“对训练用数据中的双语句子对进行分词和词频统计,确定翻译模型词汇表大小”,包括:对上述双语句子对进行词法分析以进行自动分词;统计上述源语言语句和上述目标语言语句在自动分词后的词频和占比,确定目标端词汇表和和源端词汇表大小。在一些示例中,“基于门限残差机制和平行注意力机制的深层神经网络”,其构建方法为:步骤31,利用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构;步骤32,使用sigmoid函数作为上述门限残差所在的门限残差网络模型的门控制激活函数,将上述长短时记忆网络的输入与上述门限残差网络模型的门限按位相乘得到上述门限残差网络模型的门限输出;步骤33,将上述长短时记忆网络的初始输出和上述门限输出相加作为上述门限残差网络模型的输出,叠加到所述翻译模型相应的中间层的输入中;步骤34,将上述翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为上述解码器底层的上述长短时记忆网络的输出向上层传递;步骤35,将上述翻译模型的上述解码器的顶层和上述编码器的顶层相连,进行注意力操作计算,将利用所计算出的注意力输出预测目标语言单词。在一些示例中,“采用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构”,包括通过如下公式构建基于深层神经网络的所述翻译模型:it=δ(Wixt+Uiht-1+bi)ft=δ(Wfxt+Ufht-1+bf)ot=δ(Woxt+Uoht-1+bo)ht=ot⊙tanh(ct)其中,xt是当前时刻的输入,δ是sigmoid函数,ht-1是t-1时刻的隐层状态,W、U、b为模型参数,i、f、o分别表示输入门、遗忘门、输出门;遗忘门ft控制着每一个内存单元需要遗忘多少信息,输入门it控制着每一个内存单元加入多少新的信息,输出门ot控制着每一个内存单元输出多少信息。在一些示例中,在步骤32中,上述门限残差网络模型的门控制函数为;gt=δ(Wgxt+Ught-1+bg)所述门限输出为所述门控制函数与所述长短时记忆网络的输入的点积:其中,Ug、Wg、bg为模型参数。在一些示例中,通过如下公式计算所述门限残差网络模型输出:ht=ot⊙tanh(ct)+gt⊙xt。在一些示例中,“将所述深层神经网络翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为所述解码器底层的所述长短时记忆网络的输出向上层传递”,包括:使用所述解码器底层隐层状态和所述编码器底层隐层状态计算文本矢量:利用级联层级联所述文本矢量和所述隐层状态得到所述注意力输出:tj=tanh(Wc[sj;cj]+b)=tanh(Wc1sj+Wc2+b)其中,cj为文本矢量,tj为注意力输出,Wc1、Wc2为模型参数,sj为j时刻的隐层状态。在一些示例中,“将所述深层神经网络翻译模型的所述解码器的顶层和所述编码器的顶层相连,进行注意力操作计算,利用所计算出的注意力输出预测目标语言单词”,通过如下公式预存目标语言单词:其中,为j时刻预测单词的概率分布,的目的是将概率分布归一化。在一些示例中,所述极大似然目标函数为所述双语语句对的对数似然函数之和:D为平行的双语语句对的集合,θ为模型参数。在一些示例中,“使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词”,包括:步骤11,使用自动对齐工具对平行语料进行词对齐;步骤12,统计得到各上述源语言词汇到任何目标语言的对齐个数,采用极大似然方法,得到各上述源语言词汇到任何目标语言的翻译概率;步骤13,根据模型词汇表,转化得到所述目标端词汇表中源语言对应的目标语言单词中概率最高的预定数目个单词,并以索引的形式保存。本申请提供的基于深层神经网络翻译模型的解码方法,通过在深层神经网络翻译模型的结构中引入门限残差机制和平行注意力机制以提升翻译模型的性能。其中,使用门限残差网络模型增强了梯度流在深层神经网络翻译模型中纵向和横向的更新;使用平行注意力机制,充分利用了不同层隐层状态的差别,建立了编码器和解码器底层隐层状态之间的联系;动态词汇表的建立,使得每个待测句子动态得生成其专属小规模词汇表,以提高深层神经网络机器翻译模型的解码本文档来自技高网
...

【技术保护点】
1.一种基于深层神经网络翻译模型的解码方法,其特征在于,所述方法包括:步骤1,对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。

【技术特征摘要】
1.一种基于深层神经网络翻译模型的解码方法,其特征在于,所述方法包括:步骤1,对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。2.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,所述翻译模型,其构建方法为:对训练用数据中的双语句子对进行分词和词频统计,确定所述翻译模型词汇表大小;采用极大似然目标函数作为约束函数对初始翻译模型进行参数训练;其中,所述双语句子对为存在对应关系的一对源语言语句和目标语言语句。3.根据权利要求2所述的基于深层神经网络翻译模型的解码方法,其特征在于,所述翻译模型词汇表包括目标端词汇表和源端词汇表;“对训练用数据中的双语句子对进行分词和词频统计,确定翻译模型词汇表大小”,包括:对所述双语句子对进行词法分析以进行自动分词;统计所述源语言语句和所述目标语言语句在自动分词后的词频和占比,确定所述目标端词汇表和所述源端词汇表大小。4.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,“基于门限残差机制和平行注意力机制的深层神经网络”,其构建方法为:步骤31,利用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构;步骤32,使用sigmoid函数作为所述门限残差所在的门限残差网络模型的门控制激活函数,将所述长短时记忆网络的输入与所述门限残差网络模型的门限按位相乘得到所述门限残差网络模型的门限输出;步骤33,将所述长短时记忆网络的初始输出和所述门限输出相加作为所述门限残差网络模型的输出,叠加到所述翻译模型相应的中间层的输入中;步骤34,将所述翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为所述解码器底层的所述长短时记忆网络的输出向上层传递;步骤35,将所述翻译模型的所述解码器的顶层和所述编码器的顶层相连,进行注意力操作计算,利用所计算出的注意力输出预测目标语言单词。5.根据权利要求4所述的基于深层神经网络翻译模型的解码方法,其特征在于,“采用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构”,包括通过如下公式构建所述深层神经网络翻译模型:it=δ(Wixt+Uiht-1+bi)ft=δ(Wfxt+Ufht-1+bf)ot=δ(Woxt+Uoht-...

【专利技术属性】
技术研发人员:张家俊周龙马宏远杜翠兰张翠赵晓航宗成庆
申请(专利权)人:中国科学院自动化研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1