一种基于多任务学习的蒙汉非自回归机器翻译方法技术

技术编号:35634962 阅读:10 留言:0更新日期:2022-11-19 16:23
一种基于多任务学习的蒙汉非自回归机器翻译方法,对蒙汉平行语料进行预处理;将预处理得到的蒙汉平行语料数据集划分为训练集,验证集和测试集三部分;搭建共享编码器的自回归翻译模型和非自回归翻译模型,并由共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器构成一个多任务学习框架;在所述多任务学习框架下,基于所述训练集训练所述非自回归翻译模型,从而将自回归翻译模型的知识转移到非自回归翻译模型,利用得到的非自回归翻译模型即可执行蒙汉翻译。本发明专利技术保证翻译速率提高的前提下,还能提高蒙汉翻译质量。还能提高蒙汉翻译质量。还能提高蒙汉翻译质量。

【技术实现步骤摘要】
一种基于多任务学习的蒙汉非自回归机器翻译方法


[0001]本专利技术属于机器翻译
,特别涉及一种基于多任务学习的蒙汉非自回归机器翻译方法。

技术介绍

[0002]近年来,随着不同区域沟通的需要,机器翻译得到了长远的发展,蒙古语等低资源语言的机器翻译也越来越受到重视。由于蒙古语与汉语的翻译中,平行语料匮乏及语义特征提取困难等原因,导致翻译过程仍存在很多不足,包括训练时间过长、翻译不准确、语义信息表达不足以及词向量表征不准确等。
[0003]神经机器翻译(NMT)作为最先进的机器翻译方式,近年来有两种不同的序列解码策略。第一种是自回归翻译(AT)模型,模型按照从左到右的方向逐个生成输出序列,但是其解码速度慢。第二种是非自回归翻译(NAT)模型,采用并行解码算法同时产生输出序列,但其翻译质量往往低于自回归翻译模型。尽管AT和NAT编码器属于相同的顺序学习任务,但它们捕获的是源句子的不同语言属性。
[0004]目前,针对非自回归的机器翻译提出一系列的方法进行改进,引入隐变量、迭代翻译知识蒸馏等技术,但这些方法在蒙汉翻译方面未取得较好的效果。

技术实现思路

[0005]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于多任务学习的蒙汉非自回归机器翻译方法,采用多任务学习,通过编码器共享将自回归翻译模型的知识转移到非自回归翻译模型,将自回归翻译模型作为提高非自回归翻译模型性能的辅助任务;从而希望在保证翻译速率提高的前提下,还能提高蒙汉翻译质量。
[0006]为了实现上述目的,本专利技术采用的技术方案是:
[0007]一种基于多任务学习的蒙汉非自回归机器翻译方法,包括如下步骤:
[0008]步骤1,对蒙汉平行语料进行预处理;
[0009]步骤2,将预处理得到的蒙汉平行语料数据集划分为训练集,验证集和测试集三部分;
[0010]步骤3,搭建共享编码器的自回归翻译模型和非自回归翻译模型,并由共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器构成一个多任务学习框架;
[0011]步骤4,在所述多任务学习框架下,基于所述训练集训练所述非自回归翻译模型,从而将自回归翻译模型的知识转移到非自回归翻译模型;
[0012]步骤5,利用步骤4得到的非自回归翻译模型执行蒙汉翻译。
[0013]在一个实施例中,所述步骤1,对于汉语,先进行分词处理,然后再使用BPE进行切分;对于蒙古语,直接使用BPE切分。
[0014]在一个实施例中,所述步骤3,自回归翻译模型解码器的输入是上一步解码出的结果,每一步解码生成都依赖于上一步解码的结果,当解码到EOS标志时,序列的生成过程自
动停止,得到最终的解码序列;非自回归翻译模型解码器为并行输出。
[0015]在一个实施例中,所述多任务学习框架在迭代步长t时的损失函数定义为自回归翻译模型与非自回归翻译模型损失的加权和:
[0016][0017]其中,L
at
和L
nat
分别为自回归翻译模型与非自回归翻译模型的损失;θ
enc
、分别为共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器的参数;在迭代步长t时,λ
t
为调节自回归翻译模型和非自回归翻译模型之间平衡的参数:
[0018][0019]其中T为训练的总步骤,L
at
的权值在训练过程中从1.0线性退火到0.0,而L
nat
的权值从0.0增加到1.0;
[0020]在进行模型训练时,将蒙古语句子X输入至编码器,将汉语句子Y分别输入至自回归翻译模型解码器和非自回归翻译模型解码器,在训练过程中只使用非自回归翻译模型解码器生成的汉语译文,其中所述汉语句子Y为数据集中与蒙古语句子X对应的汉语翻译。
[0021]与现有技术相比,本专利技术的有益效果是:
[0022]非自回归翻译模型和自回归翻译模型的编码器可以捕捉源句子的不同属性,具体来说,以往的非自回归翻译模型虽然大大提高了解码速度但是降低了翻译质量。因此本专利技术采用多任务学习的方法来进行蒙汉翻译,通过编码器共享将自回归机器翻译模型知识转移到非自回归机器翻译模型中,将自回归机器翻译模型作为一种辅助任务来提高非自回归翻译模型的性能。
附图说明
[0023]图1为自回归与非自回归翻译模型区别。
[0024]图2为多任务学习框架。
具体实施方式
[0025]下面结合附图和实施例详细说明本专利技术的实施方式。
[0026]本专利技术为一种基于多任务学习的蒙汉非自回归机器翻译方法,包括如下步骤:
[0027]步骤1,对蒙汉平行语料进行预处理。
[0028]对于汉语,由于其不像蒙古语和英语一样单词之间存在空格,因此先进行一个分词处理,本实施例采用的是现下流行的Jieba中文分词技术,然后再使用BPE进行切分。而对于蒙古语,则直接使用BPE切分。进行词切分这一过程可以在一定程度上缓解低频词的影响。
[0029]步骤2,将预处理得到的蒙汉平行语料数据集划分为训练集,验证集和测试集三部分。
[0030]其中,训练集用来训练翻译模型,其质量的好坏决定了模型的表现。验证集使模型在训练中能实时了解翻译性能如何。测试集用于在模型训练结束后,来测试最终模型的翻
译效果。
[0031]三部分的比例可依据惯例或者其它参考因素人为设定,例如,训练集,验证集和测试集的比例可以为8:1:1。
[0032]步骤3,搭建共享编码器的自回归翻译模型和非自回归翻译模型,并由共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器构成一个多任务学习框架。
[0033]本专利技术自回归翻译模型和非自回归翻译模型使用相同的编码器。参考图1,<BOS>表示句子开始符,自回归翻译模型解码器的输入是上一步解码出的结果,每一步解码生成都依赖于上一步解码的结果,当解码到句子结束符<EOS>时,序列的生成过程便自动停止,得到最终的解码序列。而非自回归翻译模型没有这样的依赖特性,实现了解码器的并行输出,提高了翻译的速度。
[0034]步骤4,在多任务学习框架下,基于训练集训练非自回归翻译模型,从而将自回归翻译模型的知识转移到非自回归翻译模型。
[0035]本专利技术利用一个附加的自回归翻译任务作为辅助任务,该任务的编码器参数与非自回归翻译任务共享,而解码器参数是互斥的。鉴于标准编码器结构下的自回归翻译模型和非自回归翻译模型,本专利技术将采用硬参数共享方法来共享它们的编码器参数。如图2所示为本专利技术所采用的多任务学习框架,框架由三部分组成:共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器。
[0036]自回归翻译模型在翻译目标语句时,模型从左到右逐字翻译。具体来说,给定蒙古语句子对于可能输出的汉语句子按照如下的方式生成:
[0037][0038]其中,t在此处表示当前的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的蒙汉非自回归机器翻译方法,其特征在于,包括如下步骤:步骤1,对蒙汉平行语料进行预处理;步骤2,将预处理得到的蒙汉平行语料数据集划分为训练集,验证集和测试集三部分;步骤3,搭建共享编码器的自回归翻译模型和非自回归翻译模型,并由共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器构成一个多任务学习框架;步骤4,在所述多任务学习框架下,基于所述训练集训练所述非自回归翻译模型,从而将自回归翻译模型的知识转移到非自回归翻译模型;步骤5,利用步骤4得到的非自回归翻译模型执行蒙汉翻译。2.根据权利要求1所述基于多任务学习的蒙汉非自回归机器翻译方法,其特征在于,所述步骤1,对于汉语,先进行分词处理,然后再使用BPE进行切分;对于蒙古语,直接使用BPE切分。3.根据权利要求1所述基于多任务学习的蒙汉非自回归机器翻译方法,其特征在于,所述步骤3,自回归翻译模型解码器的输入是上一步解码出的结果,每一步解码生成都依赖于上一步解码的结果,当解码到EOS标志时,序列的生成过程自动停止,得到最终的解码序列;非自回归翻译模...

【专利技术属性】
技术研发人员:苏依拉朱苏东仁庆道尔吉吉亚图
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1