The invention relates to the field of language processing, and proposes a decoding method based on deep neural network translation model, aiming at solving the problems of high training complexity, difficult training and slow decoding speed in machine translation model. The specific implementation of the method includes: processing the translated sentences by word segmentation to get the source language vocabulary; step 2, aligning the corpus in the preset translation model vocabulary with the automatic alignment tool to get the target language words aligned with the source language vocabulary; step 3, based on the items obtained in step 2 The target dynamic vocabulary of the sentences to be translated is determined by marking up the language words, and the sentences decoded by the column search method are used as the output of the translation model according to the pre-constructed translation model. The translation model is a deep neural network based on the threshold residual mechanism and the parallel attention mechanism. The invention improves the quality of the model translation and improves the decoding speed of the model.
【技术实现步骤摘要】
基于深层神经网络翻译模型的解码方法
本专利技术涉及自然语言处理
,特别涉及一种基于深层神经网络翻译模型的解码方法。
技术介绍
机器翻译又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种具有相同语义的自然语言(目标语言)的过程。机器翻译就是实现从源语言到目标语言转换的过程。机器翻译的系统框架可以分为两类:基于规则的机器翻译(RBMT)和基于语料库的机器翻译(CBMT)。其中CBMT又可分为基于实例的机器翻译(EBMT)、基于统计的机器翻译(SMT)以及近年流行的利用深度学习模型所构建的神经网络机器翻译(NMT)。其中,基于统计的机器翻译方法是将源文本和目标文本之间的翻译看成是一个概率对照的关系,试图用纯数学的概率统计来获取学习语料中的翻译对应关系;其任务就是在所有可能的目标语言的句子中,寻找概率最大的句子作为翻译结果。统计机器翻译由最初的基于词的翻译模型,发展到基于短语的翻译模型、基于层次短语的翻译模型、基于句法的翻译模型和基于语义的翻译模型。神经网络机器翻译是指采用神经网络以端到端(End-to-End)方式进行翻译建模的机器翻译方法,其基本思想是使用神经网络直接将源语言映射成目标语言文本。虽然端到端神经网络机器翻译在近年来获得了迅速的发展,但仍存在许多重要问题有待解决。比如训练复杂度高、训练难度大、存在“梯度消失”问题,解码速度慢等问题。神经网络模型的深度对其效果有着显著的影响,然而,目前基于端到端的神经网络机器翻译方法往往由于梯度传递和训练难度等问题,导致深层的机器翻译模型无法达到翻译质量的提升。实验发现,直接简单地提高神经网络机器 ...
【技术保护点】
1.一种基于深层神经网络翻译模型的解码方法,其特征在于,所述方法包括:步骤1,对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。
【技术特征摘要】
1.一种基于深层神经网络翻译模型的解码方法,其特征在于,所述方法包括:步骤1,对待翻译语句进行分词处理,得到源语言词汇;步骤2,使用自动对齐工具对预设的翻译模型词汇表中的语料进行词对齐,得到与所述源语言词汇对齐的目标语言单词;步骤3,基于步骤2所得到的目标语言单词,确定出所述待翻译语句的目标端动态词汇表,根据预先构建的翻译模型,使用柱搜索方法解码出的语句作为所述翻译模型的输出;其中,所述翻译模型为基于门限残差机制和平行注意力机制的深层神经网络。2.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,所述翻译模型,其构建方法为:对训练用数据中的双语句子对进行分词和词频统计,确定所述翻译模型词汇表大小;采用极大似然目标函数作为约束函数对初始翻译模型进行参数训练;其中,所述双语句子对为存在对应关系的一对源语言语句和目标语言语句。3.根据权利要求2所述的基于深层神经网络翻译模型的解码方法,其特征在于,所述翻译模型词汇表包括目标端词汇表和源端词汇表;“对训练用数据中的双语句子对进行分词和词频统计,确定翻译模型词汇表大小”,包括:对所述双语句子对进行词法分析以进行自动分词;统计所述源语言语句和所述目标语言语句在自动分词后的词频和占比,确定所述目标端词汇表和所述源端词汇表大小。4.根据权利要求1所述的基于深层神经网络翻译模型的解码方法,其特征在于,“基于门限残差机制和平行注意力机制的深层神经网络”,其构建方法为:步骤31,利用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构;步骤32,使用sigmoid函数作为所述门限残差所在的门限残差网络模型的门控制激活函数,将所述长短时记忆网络的输入与所述门限残差网络模型的门限按位相乘得到所述门限残差网络模型的门限输出;步骤33,将所述长短时记忆网络的初始输出和所述门限输出相加作为所述门限残差网络模型的输出,叠加到所述翻译模型相应的中间层的输入中;步骤34,将所述翻译模型的解码器的底层和编码器的底层相连,进行注意力操作计算,并将所计算出的注意力作为所述解码器底层的所述长短时记忆网络的输出向上层传递;步骤35,将所述翻译模型的所述解码器的顶层和所述编码器的顶层相连,进行注意力操作计算,利用所计算出的注意力输出预测目标语言单词。5.根据权利要求4所述的基于深层神经网络翻译模型的解码方法,其特征在于,“采用长短时记忆网络搭建基于深层神经网络的翻译模型主体结构”,包括通过如下公式构建所述深层神经网络翻译模型:it=δ(Wixt+Uiht-1+bi)ft=δ(Wfxt+Ufht-1+bf)ot=δ(Woxt+Uoht-...
【专利技术属性】
技术研发人员:张家俊,周龙,马宏远,杜翠兰,张翠,赵晓航,宗成庆,
申请(专利权)人:中国科学院自动化研究所,国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。