一种基于解码器输入增强的非自回归神经机器翻译方法技术

技术编号：30306158 阅读：59 留言：0更新日期：2021-10-09 22:42

本发明专利技术公开一种基于解码器输入增强的非自回归神经机器翻译方法，步骤为：构造非自回归神经机器翻译模型；构建双语混合预训练模型；将双语混合句子作为编码器的输入，通过解码器来预测编码器中被替换的片段；用双语混合预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入；构建训练平行语料，生成机器翻译词表；通过解码器预测对应的目标语句子；计算预测出的分布与真实数据分布的差异，完成非自回归神经机器翻译模型的训练过程；将源语句子送入非自回归神经机器翻译模型中。本发明专利技术通过词典替换的方式将源语与目标语的表示映射到了同一的词义空间下，丰富了词向量的表达能力，可被非自回归神经机器翻译模型更好利用。经机器翻译模型更好利用。经机器翻译模型更好利用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于解码器输入增强的非自回归神经机器翻译方法

[0001]本专利技术涉及一种神经机器翻译推断加速方法，具体为基于解码器输入增强的非自回归神经机器翻译方法。

技术介绍

[0002]机器翻译是将一种自然语言翻译为另一种自然语言的技术。机器翻译是自然语言处理的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。同时，随着互联网技术的飞速发展，机器翻译技术在人们日常的生活工作中起到了越来越重要的作用。
[0003]机器翻译技术从上世纪70年代基于规则的方法，到80年代基于实例的方法，90年代基于统计的方法，到如今基于神经网络的方法，历经多年的发展，终于达到了良好的效果，在人们的日常生活中得到了更广泛的使用。
[0004]目前最被广为应用的神经机器翻译系统通常采用基于神经网络的端到端的编码器
‑
解码器框架，其中性能最强大的则是基于自注意力机制的 Transformer模型结构，在多个语种的上取得了最佳的翻译性能。Transformer 由基于自注意力机制的编码器和解码器组成。标准的Transformer编码器由六层堆叠的编码层组成，解码器同样包括六层解码层。整个模型中抛弃了传统的RNN和CNN，完全由注意力机制组成。更准确的说Transformer由且仅由注意力机制和前馈神经网络组成。相比于RNN由于Transformer抛弃了只能顺序计算的限制，提高了系统的并行能力。同时由于并行计算的处理方式，也缓解了顺序计算中的长期依赖难以处理的现象。Transfor...

【技术保护点】

【技术特征摘要】
1.一种基于解码器输入增强的非自回归神经机器翻译方法，其特征在于包括以下步骤：1)采用基于自注意力机制的Transformer模型，移除解码器对未来信息屏蔽的矩阵并加入多头位置注意力，构造非自回归神经机器翻译模型；2)构建双语混合预训练模型，首先在源语言和目标语言之间使用词汇归纳来获得双语词典，然后将输入句子中的某些单词根据词典替换为其目标语的对应单词；采用编码器解码器框架，将双语混合句子作为编码器的输入，通过解码器来预测编码器中被替换的片段；3)用双语混合预训练模型编码器的词嵌入初始化非自回归神经机器翻译模型编码器和解码器的词嵌入，将源语的词嵌入经过长度转换后作为目标端的输入；4)构建训练平行语料，对源语和目标语构成的双语平行句对进行分词，得到源语序列和目标语序列，生成机器翻译词表；5)对构造的非自回归神经机器翻译模型进行训练，通过该模型中的编码器对源语句子进行编码，提取源语句子信息，再通过解码器根据该信息来预测对应的目标语句子；然后计算预测出的分布与真实数据分布的差异，通过反向传播不断减少该损失，完成非自回归神经机器翻译模型的训练过程；6)将用户输入的源语句子送入非自回归神经机器翻译模型中，解码出不同长度的翻译结果，并通过自回归神经机器翻译模型的评价选取最优的翻译结果。2.按权利要求1所述的基于解码器输入增强的非自回归神经机器翻译方法，其特征在于：步骤1)中构造自回归神经机器翻译模型，具体为：101)Transformer仅由注意力机制和前馈神经网络组成，在自注意力机制中，查询(Query，Q)，键(Key，K)和值(Value，V)三个矩阵来自相同的表示，首先对三个矩阵分别进行线性变换，然后进行缩放点积操作，即Query与Key进行点积计算，如下述公式所示：其中，Q为查询矩阵，K为键矩阵，V为值矩阵，softmax(.)为归一化函数，Attention(.)为注意力计算函数，d
k
为键矩阵的维度；102)移除解码器对未来信息屏蔽的矩阵后对翻译问题进行建模：其中，X为源语序列，Y为目标语序列，T为目标语序列长度，T
′
为源语序列长度，t为目标语的位置，x1…
T
′
为源语句子，y
t
为第t个位置的目标语词；103)在每个解码器层中添加额外的多头位置注意力模块，该模块与Transformer模型的其它部分中使用的多头注意力机制相同，在这里，位置编码作为query和key，解码器隐层状态作为value；104)在解码开始之前，使用源语长度对目标语长度进行预估并将预估的目标语长度数据送至非自回归神经机器翻译模型，以便并行生成所有单词。3.按权利要求2所述的基于解码器输入增强的非自回归神经机器翻译方法，其特征在
于：步骤104)中，使用源语长度对目标语长度进行预估并将预估的目标...

【专利技术属性】
技术研发人员：杜权，徐萍，杨迪，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人