一种基于解码器输入增强的非自回归神经机器翻译方法技术

技术编号:30306158 阅读:59 留言:0更新日期:2021-10-09 22:42
本发明专利技术公开一种基于解码器输入增强的非自回归神经机器翻译方法,步骤为:构造非自回归神经机器翻译模型;构建双语混合预训练模型;将双语混合句子作为编码器的输入,通过解码器来预测编码器中被替换的片段;用双语混合预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入;构建训练平行语料,生成机器翻译词表;通过解码器预测对应的目标语句子;计算预测出的分布与真实数据分布的差异,完成非自回归神经机器翻译模型的训练过程;将源语句子送入非自回归神经机器翻译模型中。本发明专利技术通过词典替换的方式将源语与目标语的表示映射到了同一的词义空间下,丰富了词向量的表达能力,可被非自回归神经机器翻译模型更好利用。经机器翻译模型更好利用。经机器翻译模型更好利用。

【技术实现步骤摘要】
一种基于解码器输入增强的非自回归神经机器翻译方法


[0001]本专利技术涉及一种神经机器翻译推断加速方法,具体为基于解码器输入 增强的非自回归神经机器翻译方法。

技术介绍

[0002]机器翻译是将一种自然语言翻译为另一种自然语言的技术。机器翻译 是自然语言处理的一个分支,是人工智能的终极目标之一,具有重要的科 学研究价值。同时,随着互联网技术的飞速发展,机器翻译技术在人们日 常的生活工作中起到了越来越重要的作用。
[0003]机器翻译技术从上世纪70年代基于规则的方法,到80年代基于实例 的方法,90年代基于统计的方法,到如今基于神经网络的方法,历经多年 的发展,终于达到了良好的效果,在人们的日常生活中得到了更广泛的使 用。
[0004]目前最被广为应用的神经机器翻译系统通常采用基于神经网络的端到 端的编码器

解码器框架,其中性能最强大的则是基于自注意力机制的 Transformer模型结构,在多个语种的上取得了最佳的翻译性能。Transformer 由基于自注意力机制的编码器和解码器组成。标准的Transformer编码器由 六层堆叠的编码层组成,解码器同样包括六层解码层。整个模型中抛弃了 传统的RNN和CNN,完全由注意力机制组成。更准确的说Transformer由 且仅由注意力机制和前馈神经网络组成。相比于RNN由于Transformer抛 弃了只能顺序计算的限制,提高了系统的并行能力。同时由于并行计算的 处理方式,也缓解了顺序计算中的长期依赖难以处理的现象。Transformer 的编码层包括自注意力层和前馈神经网络组成。自注意力编码器输出的用 稠密向量表示的句子进行特征提取后送入前馈神经网络。解码器相对于解 码器来说在自注意力层和前馈神经网络层之间增加了一个编码

解码注意力 层,来对源语和目标语之间的映射关系进行建模。
[0005]基于神经网络的机器翻译系统在性能上相较之前备受瞩目的基于统计 的翻译系统而言,在性能上已经得到了十足的进步。但由于神经网络涉及 大量的矩阵运算,因此在训练以及解码上相对之前的方法会更加耗时。对 于这两方面的耗时,在实际中往往对于解码的时间消耗更为看重。为使得 神经机器翻译系统能够在实际中被应用起来,必须要求系统在解码的过程 中具有较高的响应速度,否则面对难以接受的延迟,即使翻译系统具有更 为优秀的性能,在很多场景下用户也很难接受。
[0006]目前大多数机器翻译模型都使用了编码器

解码器框架来实现,编码器 将源语句的表示送入到解码器来生成目标句子;解码器通常以自回归的方 式来工作,从句首到句尾逐字地生成目标句子,第t个目标词的生成依赖于 先前生成的t

1个目标词。这种自回归的解码方式符合阅读和生成句子时的 习惯,能有效地捕捉到真实翻译的分布情况。但是解码器的每个步骤必须 顺序地而不是并行地运行,因此自回归解码会阻止像Transformer这样的体 系结构在推理过程中充分体现其训练时的性能优势。
[0007]为了减轻推理延迟,非自回归神经机器翻译模型被提出,该模型以从 句首到句尾的方式使用复制的源输入初始化解码器输入,并独立地同时生 成所有目标词。但是,非自
回归神经机器翻译模型在实现加速的同时,其 解码器必须在薄弱的目标端信息条件下来处理翻译任务,从而降低了翻译 的准确性。

技术实现思路

[0008]针对非自回归神经机器翻译模型中由于薄弱的目标端信息造成翻译质 量下降的问题,本专利技术提供了一种基于解码器输入增强的非自回归神经机 器翻译方法,能够使得非自回归神经机器翻译取得与自回归神经机器翻译 相当的性能且具有较高的响应速度以及更好实际应用。
[0009]为解决上述技术问题,本专利技术采用的技术方案是:
[0010]本专利技术一种基于基于解码器输入增强的非自回归神经机器翻译方法, 包括以下步骤:
[0011]1)采用基于自注意力机制的Transformer模型,移除解码器对未来信 息屏蔽的矩阵并加入多头位置注意力,构造非自回归神经机器翻译模型;
[0012]2)构建双语混合预训练模型,首先在源语言和目标语言之间使用词汇 归纳来获得双语词典,然后将输入句子中的某些单词根据词典替换为其目 标语的对应单词,用编码器解码器框架,将双语混合的句子作为编码器的 输入,解码器来预测编码器中被替换的片段;
[0013]3)用预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编 码器和解码器的词嵌入,将源语的词嵌入经过长度转换后作为目标端的输 入;
[0014]4)构建训练平行语料,对源语和目标语构成的双语平行句对进行分词, 得到源语序列和目标语序列,生成机器翻译词表;
[0015]5)训练一个非自回归神经机器翻译模型,编码器对源语句子进行编码, 提取源语句子信息,解码器根据该信息来预测对应的目标语句子,然后计 算预测出的分布与真实数据分布的损失,通过反向传播不断减少该损失, 完成模型的训练过程;
[0016]6)将用户输入的源语句子送入机器翻译模型中,解码出不同长度的翻 译结果,并通过自回归神经机器翻译模型的评价来得到最优的翻译结果。
[0017]步骤1)中,构造非自回归神经机器翻译模型,具体为
[0018]101)Transformer仅由注意力机制和前馈神经网络组成,在自注意力机 制中,查询(Query,Q),键(Key,K)和值(Value,V)来自相同的内 容,首先对三个矩阵分别进行线性变换,然后进行缩放点积操作,即计算 Query与Key进行点积计算,为了防止计算结果过大,会除以Key的维度来达到调节作用,如下述公式所示:
[0019][0020]其中,Q为查询矩阵,K为键矩阵,V为值矩阵,softmax(.)为归一化 函数,Attention(.)为注意力计算函数,d
k
为键矩阵的维度;
[0021]102)移除解码器对未来信息屏蔽的矩阵后对翻译问题进行建模:
[0022][0023]其中,X为源语序列,Y为目标语序列,T为目标语序列长度,T

为源 语序列长度,x
t
为第t个位置的源语词,y
t
为第t个位置的目标语词;
[0024]103)在每个解码器层中添加额外的多头位置注意力模块,该模块与 Transformer模型的其它部分中使用的多头注意力机制相同,在这里,位置 编码作为query和key,解码器隐层状态作为value;
[0025]104)与自回归神经机器翻译模型不同,非自回归神经机器翻译模型需 要估计目标长度来并行生成所有词。这里训练一个模型来预测目标句子和 源句子之间的长度偏移,长度预测模型P
L
接收编码器的隐藏状态,经过线 性变换并送入到softmax分类器中来生成最终结果。
[0026]步骤2)中构建双语混合预训练模型,具体为:
[0027]2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于解码器输入增强的非自回归神经机器翻译方法,其特征在于包括以下步骤:1)采用基于自注意力机制的Transformer模型,移除解码器对未来信息屏蔽的矩阵并加入多头位置注意力,构造非自回归神经机器翻译模型;2)构建双语混合预训练模型,首先在源语言和目标语言之间使用词汇归纳来获得双语词典,然后将输入句子中的某些单词根据词典替换为其目标语的对应单词;采用编码器解码器框架,将双语混合句子作为编码器的输入,通过解码器来预测编码器中被替换的片段;3)用双语混合预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入,将源语的词嵌入经过长度转换后作为目标端的输入;4)构建训练平行语料,对源语和目标语构成的双语平行句对进行分词,得到源语序列和目标语序列,生成机器翻译词表;5)对构造的非自回归神经机器翻译模型进行训练,通过该模型中的编码器对源语句子进行编码,提取源语句子信息,再通过解码器根据该信息来预测对应的目标语句子;然后计算预测出的分布与真实数据分布的差异,通过反向传播不断减少该损失,完成非自回归神经机器翻译模型的训练过程;6)将用户输入的源语句子送入非自回归神经机器翻译模型中,解码出不同长度的翻译结果,并通过自回归神经机器翻译模型的评价选取最优的翻译结果。2.按权利要求1所述的基于解码器输入增强的非自回归神经机器翻译方法,其特征在于:步骤1)中构造自回归神经机器翻译模型,具体为:101)Transformer仅由注意力机制和前馈神经网络组成,在自注意力机制中,查询(Query,Q),键(Key,K)和值(Value,V)三个矩阵来自相同的表示,首先对三个矩阵分别进行线性变换,然后进行缩放点积操作,即Query与Key进行点积计算,如下述公式所示:其中,Q为查询矩阵,K为键矩阵,V为值矩阵,softmax(.)为归一化函数,Attention(.)为注意力计算函数,d
k
为键矩阵的维度;102)移除解码器对未来信息屏蔽的矩阵后对翻译问题进行建模:其中,X为源语序列,Y为目标语序列,T为目标语序列长度,T

为源语序列长度,t为目标语的位置,x1…
T

为源语句子,y
t
为第t个位置的目标语词;103)在每个解码器层中添加额外的多头位置注意力模块,该模块与Transformer模型的其它部分中使用的多头注意力机制相同,在这里,位置编码作为query和key,解码器隐层状态作为value;104)在解码开始之前,使用源语长度对目标语长度进行预估并将预估的目标语长度数据送至非自回归神经机器翻译模型,以便并行生成所有单词。3.按权利要求2所述的基于解码器输入增强的非自回归神经机器翻译方法,其特征在
于:步骤104)中,使用源语长度对目标语长度进行预估并将预估的目标...

【专利技术属性】
技术研发人员:杜权徐萍杨迪
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1