基于预训练双语词向量的神经机器翻译方法技术

技术编号：29791063 阅读：11 留言：0更新日期：2021-08-24 18:10

本发明专利技术公开了一种基于预训练双语词向量的神经机器翻译方法，将标注对齐的平行语料进行“源语言‑目标语言”拼接作为XLM模型的输入进行预训练；训练：取预训练得到的双语词向量矩阵初始化翻译模型；将源语言输入编码器，将源语言编码的向量表示及对应目标语言输入解码器输出预测序列，将其与相应的目标序列进行对比并计算损失值，输入优化器对翻译模型参数进行优化；预测：在某个时间步里，将源语言输入优化的编码器，编码器输出相应向量表示，将该向量表示以及上一时间步翻译的目标语言词输入解码器，解码器输出该时间步的目标词，将不同时间步翻译的目标词按时间顺序进行拼接，得到源语言翻译的结果。该方法提高了低资源语种的机器翻译效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于预训练双语词向量的神经机器翻译方法
本专利技术涉及神经机器翻译
，特别涉及一种基于深度学习和双语词向量的神经机器翻译方法。
技术介绍
神经机器翻译(Neuralmachinetranslation，NMT)是一种引入人工神经网络进行翻译的机器翻译技术。相较于传统的统计机器翻译(StatisticalMachineTranslation，SMT)，神经机器翻译使用一种端到端的“编码器-解码器”架构。具体来说，这种架构又可被分为以下三类：(1)基于循环神经网络的神经机器翻译模型。该种模型使用长短期记忆(LongShort-TermMemory，LSTM)或门控循环单元(GatedRecurrentUnits，GRU)作为搭建“编码器-解码器”架构的单元。同时，其引入注意力机制，使得生成每个目标端词语时，解码器可以将“注意力”集中到源端的几个相关词语上，并从中获取有用的信息，从而获得更好的翻译表现。(2)基于卷积神经网络的神经机器翻译模型。该种模型使用卷积模块的叠加来搭建“编码器-解码器”架构。同时，其在词向量中加入位置编码使模型获得更丰富的信息，增强模型的表示能力；此外，其使用残差连接来缓解模型训练时的梯度消失问题。(3)Transformer神经机器翻译模型。该种模型创新性地使用了自注意力机制来对序列进行编码，其编码和解码器均由自注意力模块和前向神经网络构成。近年来的研究表明，在英语等单语中提出的自然语言理解生成性训练是十分有效的。仅仅针对单语进行语言模型预训练可以解决大量基于...

【技术保护点】
1.一种基于预训练双语词向量的神经机器翻译方法，其特征在于，包括以下步骤：/n步骤S1，将标注平行语料进行源语言-目标语言拼接，利用拼接后的标注平行语料对XLM模型进行预训练，并使用交叉熵损失函数计算损失值，将所述损失值输入优化器Adam进行所述XLM模型参数的更新优化；/n步骤S2，取出预训练后的XLM模型的词向量矩阵，以初始化transformer模型的编码器的词向量矩阵和解码器的词向量矩阵；/n步骤S3，将所述拼接后的标注平行语料的源语言相继输入至所述transformer模型的编码器中进行词向量化操作，将源语言的向量表示以及对应的目标语言输入所述解码器，得到预测序列，将所述预测序列与预设目标序列进行对比，并使用交叉熵损失函数计算损失值，将该损失值输入优化器Adam进行所述transformer模型参数的更新优化，迭代该过程，当所述损失值达到最小时，停止参数的优化更新并输出此刻的transformer模型；/n步骤S4，在某个时间步里，将源语言输入所述transformer模型的编码器，编码器输出相应的向量表示，将该向量表示以及上一时间步翻译的目标语言词输入所述transform...

【技术特征摘要】
1.一种基于预训练双语词向量的神经机器翻译方法，其特征在于，包括以下步骤：
步骤S1，将标注平行语料进行源语言-目标语言拼接，利用拼接后的标注平行语料对XLM模型进行预训练，并使用交叉熵损失函数计算损失值，将所述损失值输入优化器Adam进行所述XLM模型参数的更新优化；
步骤S2，取出预训练后的XLM模型的词向量矩阵，以初始化transformer模型的编码器的词向量矩阵和解码器的词向量矩阵；
步骤S3，将所述拼接后的标注平行语料的源语言相继输入至所述transformer模型的编码器中进行词向量化操作，将源语言的向量表示以及对应的目标语言输入所述解码器，得到预测序列，将所述预测序列与预设目标序列进行对比，并使用交叉熵损失函数计算损失值，将该损失值输入优化器Adam进行所述transformer模型参数的更新优化，迭代该过程，当所述损失值达到最小时，停止参数的优化更新并输出此刻的transformer模型；
步骤S4，在某个时间步里，将源语言输入所述transformer模型的编码器，编码器输出相应的向量表示，将该向量表示以及上一时间步翻译的目标语言词输入所述transformer模型的解码器，解码器输出该时间步的目标词，并将不同时间步翻译的目标词按时间顺序进行拼接，得到源语言翻译的最终结果，其中，同一时间步依赖源语言只能翻译得到目标语言中的一个词。

2.根据权利要求1所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述预训练的任务包括随机语言建模、遮盖语言建模或翻译语言建模。

3.根据权利要求2所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，在所述步骤S1中，
当所述XLM模型仅仅设置所述随机语言建模任务或所述遮盖语言建模任务进行预训练时，只需要对非平行语料的源语言或目标语言采样任意数量的句子进行拼接，并取拼接单句前256个词作为输入语句输入到所述XLM模型中；
当XLM设置所述翻译语言建模时，需要将标注平行语料中的源语言和目标语言使用句子分隔符拼接，再将拼接的整句作为单句输入到所述XLM模型中。

4.根据权利要求3所述的基于预训练双语词向量的神经机器翻译方法，其特征在于，所述步骤S1中所述XLM模型对所述输入语句或所述单句处理的具体过程为：
当所述预训练的任务为所述随机语言建模任务时，给定句中词wt之前出现的词，建模wt出现在词w1，…，wt-1之后的概率P(wt|w1,…,wt-1,θ)，即直接使用transformerencoder来预测下一个词出现的概率；
当所述预训练的任务为所述遮盖语言建模任务时，按预设概率采样所述输入语句的词，同时将被采样的词按80％的概率被“[MASK]”替换...

【专利技术属性】
技术研发人员：朱聪慧，赵铁军，刘哲宁，曹海龙，杨沐昀，徐冰，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人