当前位置: 首页 > 专利查询>清华大学专利>正文

机器翻译方法及装置制造方法及图纸

技术编号:20546113 阅读:31 留言:0更新日期:2019-03-09 19:02
本发明专利技术实施例提供一种机器翻译方法及装置,其中方法包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果。本发明专利技术实施例能够解决机器翻译对上下文的依赖,显著提高翻译质量。

Machine Translation Method and Device

The embodiment of the present invention provides a machine translation method and device, in which the method includes: input the word vector of the source sentence preceding to a pre-trained context encoder, output the coding identification of the source statement preceding, input the word vector of the source statement and the coding identification of the source statement preceding to a pre-trained source language encoder, and obtain the coding identification of the source statement. The translated word vectors in the target sentence, the coded identification of the preceding part of the source statement and the coded identification of the source statement are input into the pre-trained decoder to obtain the newly translated word vectors in the target statement, and the corresponding translation results are obtained according to the newly translated word vectors in the target statement. The embodiment of the present invention can solve the dependence of machine translation on context and significantly improve the quality of translation.

【技术实现步骤摘要】
机器翻译方法及装置
本专利技术涉及机器学习
,更具体地,涉及机器翻译方法及装置。
技术介绍
随着神经网络机器翻译技术的飞速发展,机器翻译的质量得到了飞跃式的提升,机器翻译的多种衍生产品也开始逐渐走入人们的生活之中。较常用的翻译模型是大有注意力机制(attention-based)的encoder-decoder模型。主要思想是将待翻译的语句既源语句经过编码器encoder编码,使用一个向量标识,然后利用解码器decoder对源语句的向量表示进行解码,翻译成为对应的译文,即目标语句。这种encoder-decoder框架是深度学习的核心思想。同样地,encoder-decoder框架也是NMT(neuralmachinetranslation,神经机器翻译)系统常用的基本架构。目前主流的NMT系统,encoder和decoder都利用FNN(Feed-forwardneuralnetwork,前向神经网络)技术。基于自注意力机制的神经网络机器翻译是当前效果最好的机器翻译模型。图1为现有技术提供的机器翻译方法的流程示意图,如图1所示,现有技术在对源语句进行翻译时,采用的是将源语言词向量输入至源语言编码器,通过自注意力层和前向神经网络层获得源语句的编码标识,将目标语句中已翻译的词向量输入至解码器中,已翻译的词向量输入自注意力层后,输出第一结果,将第一结果与源语句的编码标识一并输入至编码器-解码器注意力层中,输出第二结果,再将第二结果输入至解码器中的前向神经网络层,根据输出的第三结构进行分类预测,即可翻译出目标语言的词汇。由上述内容可知,现有技术只会考虑当前待翻译的源语句,并没有考虑句子的上下文,这导致了机器翻译无法处理一些和上下文依赖有关的问题,例如词语歧义性、指代消解、词汇衔接等问题。
技术实现思路
本专利技术提供一种克服上述问题或者至少部分地解决上述问题的机器翻译方法及装置。第一个方面,本专利技术实施例提供一种机器翻译方法,包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果;其中,所述上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成;所述源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次;所述目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。第二个方面,本专利技术实施例提供一种机器翻译装置,包括:前文标识模块,用于将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;源语句标识模块,用于将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;词向量获取模块,用于将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;翻译结果模块,用于根据所述目标语句中新翻译的词向量获得对应的翻译结果;其中,所述上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成;所述源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次;所述目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本专利技术实施例提供的机器翻译方法及装置,将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果,将上下文信息融合到基于自注意力机制的神经网络机器翻译模型中,解决机器翻译对上下文的依赖,显著提高翻译质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为现有技术提供的机器翻译方法的流程示意图;图2为本专利技术实施例提供的机器翻译方法的训练过程的流程示意图;图3为本专利技术实施例提供的机器翻译方法的应用过程的流程示意图;图4为本专利技术另一个实施例提供的机器翻译方法的流程示意图;图5为本专利技术实施例提供的机器翻译装置的结构示意图;图6为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了克服现有技术的上述缺陷,本专利技术实施例的专利技术构思为,将待翻译的源语句(以下简称源语句)前文的词向量输入至预先训练的上下文编码器中,获得源语句前文的编码标识,该编码标识表征了源语句的上下文信息,将上下文信息融合到基于自注意力机制的神经网络机器翻译模型中,解决机器翻译对上下文的依赖,显著提高翻译质量。本专利技术实施例公开一种机器翻译方法,包括训练和应用两个过程,其中,图2为根据本专利技术实施例提供的机器翻译方法的训练流程示意图包括:S201、将样本源语句前文的词向量输入至上下文编码器,输出样本源语句前文的编码标识。本专利技术实施例在训练过程中选择了样本源语句和样本目标语句(样本源语句与样本目标语句的组合也称作平行语料),样本源语句对应第一语言,而样本目标语句对应第二语言,机器翻译方法的训练目的是将样本源语句准确翻译为样本目标语句。本专利技术实施例在对样本源语句进行翻译前还获取了样本源语句的前文,这样就可以更准确地分析样本源语句的语境、语义等信息。在实际应用中,预先对样本源语句以及样本源语句前文中的每个单词初始化为一个词向量,词向量一般为一个多维的向量,向量中的每一维都是一个实数,实数的大小可以根据实验过程中的结果最终确定。例如,对于词汇“水杯”,对应的词向量可以是<0.24,0.21,-0.11,...,0.72>。在训练阶段,上下文编码器可以对样本源语句前文进行编码,即将样本源语句编码成一系列的向量,获得样本源语句的矩阵x=<x1本文档来自技高网
...

【技术保护点】
1.一种机器翻译方法,其特征在于,包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果;其中,所述上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成;所述源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次;所述目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。

【技术特征摘要】
1.一种机器翻译方法,其特征在于,包括:将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识;将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中新翻译的词向量;根据所述目标语句中新翻译的词向量获得对应的翻译结果;其中,所述上下文编码器根据样本源语句前文的词向量以及样本源语句前文的编码标识训练而成;所述源语言编码器根据样本源语句的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练二次;所述目标语言编码器根据样本目标语句中的词向量、样本源语句前文的编码标识以及样本源语句的编码标识训练而成。2.根据权利要求1所述的机器翻译方法,其特征在于,所述上下文编码器由Nc个依次连接的上下文编码层构成,每个所述上下文编码层依次包括第一自注意力层和第一前向神经网络层;相应地,所述将源语句前文的词向量输入至预先训练的上下文编码器,输出所述源语句前文的编码标识,具体为:将源语句前文的词向量输入至第1个上下文编码层中的第一自注意力层,输出矩阵A(1);将所述矩阵A(1)输入至第1个上下文编码层中的第一前向神经网络层,输出矩阵C(1);对于第n个上下文编码层,将矩阵C(n-1)输入至第n个上下文编码层中的第一自注意力层,输出矩阵A(n);将矩阵A(n)输入至第n个上下文编码层中的第一前向神经网络层,输出矩阵C(n);满足1<n≤Nc;将第Nc个上下文编码层的输出C(Nc)作为所述源语句前文的编码标识。3.根据权利要求2所述的机器翻译方法,其特征在于,所述源语言编码器由Ns个依次连接的源语言编码层构成,每个所述源语言编码层依次包括第二自注意力层、第一上下文注意力层和第二前向神经网络层;相应地,所述将源语句的词向量以及所述源语句前文的编码标识输入至预先训练的源语言编码器,获得所述源语句的编码标识;将源语句的词向量输入至第1个源语言编码层中的第二自注意力层,输出矩阵B(1);将矩阵B(1)以及矩阵C(Nc)输入至第1个源语言编码层中的第一上下文注意力层,输出矩阵D(1);将矩阵D(1)输入至第1个源语言编码层中的第二前向神经网络层,输出矩阵S(1);对于第m个源语言编码层,将矩阵S(m-1)输入至第m个源语言编码层中的第二自注意力层,输出矩阵B(m);将矩阵B(m)以及矩阵C(Nc)输入至第m个源语言编码层中的第一上下文注意力层,输出矩阵D(m);将矩阵D(m)输入至第m个源语言编码层中的第二前向神经网络层,输出矩阵S(m);满足1<m≤Ns;将第Ns个源语言编码层的输出S(Ns)作为所述源语句的编码标识。4.根据权利要求3所述的机器翻译方法,其特征在于,所述解码器由Nt个依次连接的解码层构成,所述每个解码层依次包括第三自注意力层、第二上下文注意力层、编码器-解码器注意力层和第三前向神经网络层;相应地,所述将目标语句中已翻译的词向量、源语句前文的编码标识和源语句的编码标识输入至预先训练的解码器,获得目标语句中未翻译的词向量,具体为:将目标语句中已翻译的词向量输入至第1个解码层中的第三自...

【专利技术属性】
技术研发人员:孙茂松刘洋张嘉成栾焕博翟飞飞许静芳
申请(专利权)人:清华大学北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1