当前位置: 首页 > 专利查询>南京大学专利>正文

利用外部信息的神经机器翻译方法技术

技术编号:19341938 阅读:35 留言:0更新日期:2018-11-07 13:49
本公开涉及利用外部信息的神经机器翻译方法,包括:接收源端源语言的文字序列作为源端输入;接收目标语言的文字序列作为外部信息输入;根据源端输入和外部信息输入,生成源端源语言文字序列的译文作为目标端输出。本公开提供的神经机器翻译方法通过在翻译过程中输入外部信息,为翻译提供了参考,有效提高了神经机器翻译的翻译效率。

Neural Machine Translation method using external information

The present disclosure relates to a neuro-machine translation method utilizing external information, including: receiving the text sequence of source language as source input; receiving the text sequence of target language as external information input; and generating the translation of source language text sequence as target output according to source input and external information input. The neuro-machine translation method provided in the present disclosure provides a reference for translation by inputting external information in the process of translation and effectively improves the translation efficiency of neuro-machine translation.

【技术实现步骤摘要】
利用外部信息的神经机器翻译方法
本公开涉及自然语言处理的机器翻译
,尤其涉及一种利用外部信息的神经机器翻译方法。
技术介绍
近年来,随着计算机技术的迅猛发展,计算机硬件的算力不断提高,海量的数据得到广泛应用,机器学习方法特别是基于神经网络的深度学习方法取得了很大的发展和广泛的应用,这其中就包括基于神经网络的机器翻译方法,即神经机器翻译(NMT)。在NMT领域中,比较典型的是基于带有注意力机制的编码器解码器架构(Attention-basedEncoder-DecoderArchitecture)的神经机器翻译模型。其工作过程如下:输入待翻译的源端句子的词向量序列x,即x={x1,…,xi,…,xI}。随之使用一个基于神经网络的编码器将其编码为I个隐层表示h={h1,…,hi,…,hI},接着使用一个基于神经网络的解码器进行解码。在每个解码时刻t,解码器首先读取1到t-1时刻生成的历史信息,然后通过注意力机制从源端的编码器的隐层表示h中获得当前时刻对应的源端上下文信息,从而生成目标端的隐层表示s={s1,…,st,…,sT}。进而通过T个目标端的隐层表示生成目标语言句子y={y1,…,yt,…,yT}。现有技术对NMT的研究主要集中于通过设计更复杂的模型来增强翻译系统的性能,然而,随着NMT的发展,通过设计更好的模型,使之能更好地从给定的有限规模的训练样本中学习翻译能力已经逐渐达到了一个瓶颈,与此同时还伴随着模型复杂性的上升和模型规模的增大。因此,如何在不过度增加模型复杂性的基础上提出一种提高翻译质量的方法,是本领域亟待解决的问题。
技术实现思路
有鉴于此,本公开提出了一种利用外部信息的机器翻译方法。本公开提供了一种利用外部信息的神经机器翻译方法,所述方法包括:接收源端源语言的文字序列作为源端输入;接收目标语言的文字序列作为外部信息输入;根据所述源端输入和所述外部信息输入,生成源端源语言文字序列的译文作为目标端输出。在一种可能的实现方式中,所述根据所述源端输入和所述外部信息输入,生成源端源语言文字序列的译文作为目标端输出,包括:对所述源端输入的所述源端源语言的文字序列编码,得到源端源语言的神经网络隐层表示;在翻译的当前时刻t,根据所述源端源语言的神经网络隐层表示,得到目标端的隐层表示;根据所述目标端的隐层表示,得到所述当前时刻t的翻译预测原概率分布;对所述外部信息输入的目标语言的文字序列编码,得到外部信息的隐层表示;根据所述外部信息的隐层表示,得到所述当前时刻t的外部信息翻译概率分布;根据所述翻译预测原概率分布和所述外部信息翻译概率分布,得到所述当前时刻t的结合外部信息的翻译预测概率分布;根据每一时刻的所述结合外部信息的翻译预测概率分布,生成源端源语言文字序列的译文作为目标端输出。在一种可能的实现方式中,所述方法还包括:识别所述外部信息中的噪音,得到第一外部信息判别结果和/或第二外部信息判别结果;所述根据所述翻译预测原概率分布和所述外部信息翻译概率分布,得到所述当前时刻t的结合外部信息的翻译预测概率分布,包括:根据所述翻译预测原概率分布、所述外部信息翻译概率分布、所述第一外部信息判别结果和/或所述第二外部信息判别结果,得到所述当前时刻t的结合外部信息的翻译预测概率分布。在一种可能的实现方式中,所述识别所述外部信息中的噪音,得到第一外部信息判别结果,包括:根据所述源端源语言的神经网络隐层表示和所述外部信息的隐层表示,判别所述外部信息输入中的每个单词对于本次翻译是否为噪音;分别为被判别为噪音的元素和被判别不为噪音的元素设置不同的噪音判别权重作为第一外部信息判别结果;所述识别所述外部信息中的噪音,得到第二外部信息判别结果,包括:根据所述外部信息的隐层表示,得到所述当前时刻t的对翻译有帮助的部分外部信息表示,根据所述当前时刻t的所述目标端的隐层表示和所述对翻译有帮助的部分外部信息表示,判别所述外部信息输入中的每个单词对于所述当前时刻t的翻译是否为噪音;分别为被判别为噪音的元素和被判别不为噪音的元素设置不同的噪音判别权重作为第二外部信息判别结果。在一种可能的实现方式中,根据所述翻译预测原概率分布、所述外部信息翻译概率分布、所述第一外部信息判别结果和/或所述第二外部信息判别结果,得到所述当前时刻t的结合外部信息的翻译预测概率分布的计算公式为:其中,Pt(y)为当前时刻t的结合外部信息的翻译预测概率分布,为翻译预测原概率分布、为外部信息翻译概率分布、D(y)为第一外部信息判别结果,βt为第二外部信息判别结果。在一种可能的实现方式中,所述外部信息输入包括以下中的一种或多种:单词、短语、句子。在一种可能的实现方式中,所述在翻译的当前时刻t,根据所述源端源语言的神经网络隐层表示,得到目标端的隐层表示,使用注意力机制。在一种可能的实现方式中,所述根据所述外部信息的隐层表示,得到所述当前时刻t的外部信息翻译概率分布,使用注意力机制。本公开提供的神经机器翻译方法,通过在翻译过程中输入外部信息,利用外部信息为翻译提供了参考,有效提高了神经机器翻译方法的翻译效率。附图说明图1是根据本公开的一个实施方式的利用外部信息的神经机器翻译方法的流程图。图2是根据本公开的一个实施方式的步骤S3的方法流程图。图3是根据本公开的一个实施方式的利用外部信息的神经机器翻译方法的流程图。图4是根据本公开的一个实施方式的利用外部信息的神经机器翻译方法的流程图。图5是根据本公开的一个实施方式的利用外部信息的神经机器翻译方法的流程图。图6是根据本公开的一个实施方式的步骤S401的方法流程图。图7是根据本公开的一个实施方式的步骤S402的方法流程图。图8是根据本公开的一个实施方式的利用外部信息的神经机器翻译系统获得当前时刻t的结合外部信息的翻译预测概率分布Pt(y)的过程示意图。图9是根据本公开的一个实施方式的利用外部信息的神经机器翻译系统在当前时刻t将译文中第t个单词最终翻译为moving的过程示意图。具体实施方式以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。图1示出了本公开一实施例的利用外部信息的神经机器翻译方法的流程图,如图1所示,该方法可以包括:步骤S1,接收源端源语言的文字序列作为源端输入;源语言的语言体系可以是现有语言体系中的一种,例如中文、英文等。将源端待翻译的单词、短语和句子中的至少一种划分成若干个单词,该若干个单词构成源语言的文字序列。其中,对于具体的划分方式,本公开不作限定。步骤S2,接收目标语言的文字序列作为外部信息输入;目标语言的语言体系为与源语言的语言体系不同的另一种语言体系。可选地,外部信息输入的目标语言的文字序列形式为单词、短语和句子本文档来自技高网...

【技术保护点】
1.一种利用外部信息的神经机器翻译方法,所述方法包括:接收源端源语言的文字序列作为源端输入;接收目标语言的文字序列作为外部信息输入;根据所述源端输入和所述外部信息输入,生成源端源语言文字序列的译文作为目标端输出。

【技术特征摘要】
1.一种利用外部信息的神经机器翻译方法,所述方法包括:接收源端源语言的文字序列作为源端输入;接收目标语言的文字序列作为外部信息输入;根据所述源端输入和所述外部信息输入,生成源端源语言文字序列的译文作为目标端输出。2.根据权利要求1所述的方法,其特征在于,所述根据所述源端输入和所述外部信息输入,生成源端源语言文字序列的译文作为目标端输出,包括:对所述源端输入的所述源端源语言的文字序列编码,得到源端源语言的神经网络隐层表示;在翻译的当前时刻t,根据所述源端源语言的神经网络隐层表示,得到目标端的隐层表示;根据所述目标端的隐层表示,得到所述当前时刻t的翻译预测原概率分布;对所述外部信息输入的目标语言的文字序列编码,得到外部信息的隐层表示;根据所述外部信息的隐层表示,得到所述当前时刻t的外部信息翻译概率分布;根据所述翻译预测原概率分布和所述外部信息翻译概率分布,得到所述当前时刻t的结合外部信息的翻译预测概率分布;根据每一时刻的所述结合外部信息的翻译预测概率分布,生成源端源语言文字序列的译文作为目标端输出。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:识别所述外部信息输入中的噪音,得到第一外部信息判别结果和/或第二外部信息判别结果;所述根据所述翻译预测原概率分布和所述外部信息翻译概率分布,得到所述当前时刻t的结合外部信息的翻译预测概率分布,包括:根据所述翻译预测原概率分布、所述外部信息翻译概率分布、所述第一外部信息判别结果和/或所述第二外部信息判别结果,得到所述当前时刻t的结合外部信息的翻译预测概率分布。4.根据权利要求3所述的方法,其特征在于,所述识别所述外部信息中的噪音...

【专利技术属性】
技术研发人员:黄书剑郑在翔戴新宇张建兵尹存燕陈家骏
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1