The embodiment of the present invention provides a machine translation method and device, in which the method includes: input the word vector of the source sentence preceding to a pre-trained context encoder, output the coding identification of the source statement preceding, input the word vector of the source statement and the coding identification of the source statement preceding to a pre-trained source language encoder, and obtain the coding identification of the source statement. The translated word vectors in the target sentence, the coded identification of the preceding part of the source statement and the coded identification of the source statement are input into the pre-trained decoder to obtain the newly translated word vectors in the target statement, and the corresponding translation results are obtained according to the newly translated word vectors in the target statement. The embodiment of the present invention can solve the dependence of machine translation on context and significantly improve the quality of translation.
【技术实现步骤摘要】
机器翻译方法及装置
本专利技术涉及机器学习
,更具体地,涉及机器翻译方法及装置。
技术介绍
随着神经网络机器翻译技术的飞速发展,机器翻译的质量得到了飞跃式的提升,机器翻译的多种衍生产品也开始逐渐走入人们的生活之中。较常用的翻译模型是大有注意力机制(attention-based)的encoder-decoder模型。主要思想是将待翻译的语句既源语句经过编码器encoder编码,使用一个向量标识,然后利用解码器decoder对源语句的向量表示进行解码,翻译成为对应的译文,即目标语句。这种encoder-decoder框架是深度学习的核心思想。同样地,encoder-decoder框架也是NMT(neuralmachinetranslation,神经机器翻译)系统常用的基本架构。目前主流的NMT系统,encoder和decoder都利用FNN(Feed-forwardneuralnetwork,前向神经网络)技术。基于自注意力机制的神经网络机器翻译是当前效果最好的机器翻译模型。图1为现有技术提供的机器翻译方法的流程示意图,如图1所示,现有技术在对源语句进行翻译时,采用的是将源语言词向量输入至源语言编码器,通过自注意力层和前向神经网络层获得源语句的编码标识,将目标语句中已翻译的词向量输入至解码器中,已翻译的词向量输入自注意力层后,输出第一结果,将第一结果与源语句的编码标识一并输入至编码器-解码器注意力层中,输出第二结果,再将第二结果输入至解码器中的前向神经网络层,根据输出的第三结构进行分类预测,即可翻译出目标语言的词汇。由上述内容可知,现有技术只会考虑当前 ...
【技术保护点】
1.一种机器翻译方法,其特征在于,包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果;其中,所述上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成;所述源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次;所述目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。
【技术特征摘要】
1.一种机器翻译方法,其特征在于,包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果;其中,所述上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成;所述源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次;所述目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。2.根据权利要求1所述的机器翻译方法,其特征在于,所述上下文编码器由Nc个依次连接的上下文编码层构成,每个所述上下文编码层依次包括第一自注意力层和第一前向神经网络层;相应地,所述将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识,具体为:将源语句前文的词向量输入至第1个上下文编码层中的第一自注意力层,输出矩阵A(1);将所述矩阵A(1)输入至第1个上下文编码层中的第一前向神经网络层,输出矩阵C(1);对于第n个上下文编码层,将矩阵C(n-1)输入至第n个上下文编码层中的第一自注意力层,输出矩阵A(n);将矩阵A(n)输入至第n个上下文编码层中的第一前向神经网络层,输出矩阵C(n);满足1<n≤Nc;将第Nc个上下文编码层的输出C(Nc)作为所述源语句前文的编码标识。3.根据权利要求2所述的机器翻译方法,其特征在于,所述源语言编码器由Ns个依次连接的源语言编码层构成,每个所述源语言编码层依次包括第二自注意力层、第一上下文注意力层和第二前向神经网络层;相应地,所述将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将源语句的词向量输入至第1个源语言编码层中的第二自注意力层,输出矩阵B(1);将矩阵B(1)以及矩阵C(Nc)输入至第1个源语言编码层中的第一上下文注意力层,输出矩阵D(1);将矩阵D(1)输入至第1个源语言编码层中的第二前向神经网络层,输出矩阵S(1);对于第m个源语言编码层,将矩阵S(m-1)输入至第m个源语言编码层中的第二自注意力层,输出矩阵B(m);将矩阵B(m)以及矩阵C(Nc)输入至第m个源语言编码层中的第一上下文注意力层,输出矩阵D(m);将矩阵D(m)输入至第m个源语言编码层中的第二前向神经网络层,输出矩阵S(m);满足1<m≤Ns;将第Ns个源语言编码层的输出S(Ns)作为所述源语句的编码标识。4.根据权利要求3所述的机器翻译方法,其特征在于,所述解码器由Nt个依次连接的解码层构成,所述每个解码层依次包括第三自注意力层、第二上下文注意力层、编码器-解码器注意力层和第三前向神经网络层;相应地,所述将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中未翻译的词向量,具体为:将目标语句中已翻译的词向量输入至第1个解码层中的第三自...
【专利技术属性】
技术研发人员:孙茂松,刘洋,张嘉成,栾焕博,翟飞飞,许静芳,
申请(专利权)人:清华大学,北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。