一种基于多任务学习的蒙汉非自回归机器翻译方法技术

技术编号:35634962 阅读:25 留言:0更新日期:2022-11-19 16:23
一种基于多任务学习的蒙汉非自回归机器翻译方法,对蒙汉平行语料进行预处理;将预处理得到的蒙汉平行语料数据集划分为训练集,验证集和测试集三部分;搭建共享编码器的自回归翻译模型和非自回归翻译模型,并由共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器构成一个多任务学习框架;在所述多任务学习框架下,基于所述训练集训练所述非自回归翻译模型,从而将自回归翻译模型的知识转移到非自回归翻译模型,利用得到的非自回归翻译模型即可执行蒙汉翻译。本发明专利技术保证翻译速率提高的前提下,还能提高蒙汉翻译质量。还能提高蒙汉翻译质量。还能提高蒙汉翻译质量。

【技术实现步骤摘要】
一种基于多任务学习的蒙汉非自回归机器翻译方法


[0001]本专利技术属于机器翻译
,特别涉及一种基于多任务学习的蒙汉非自回归机器翻译方法。

技术介绍

[0002]近年来,随着不同区域沟通的需要,机器翻译得到了长远的发展,蒙古语等低资源语言的机器翻译也越来越受到重视。由于蒙古语与汉语的翻译中,平行语料匮乏及语义特征提取困难等原因,导致翻译过程仍存在很多不足,包括训练时间过长、翻译不准确、语义信息表达不足以及词向量表征不准确等。
[0003]神经机器翻译(NMT)作为最先进的机器翻译方式,近年来有两种不同的序列解码策略。第一种是自回归翻译(AT)模型,模型按照从左到右的方向逐个生成输出序列,但是其解码速度慢。第二种是非自回归翻译(NAT)模型,采用并行解码算法同时产生输出序列,但其翻译质量往往低于自回归翻译模型。尽管AT和NAT编码器属于相同的顺序学习任务,但它们捕获的是源句子的不同语言属性。
[0004]目前,针对非自回归的机器翻译提出一系列的方法进行改进,引入隐变量、迭代翻译知识蒸馏等技术,但这些方法在蒙汉翻译方面未取得较本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的蒙汉非自回归机器翻译方法,其特征在于,包括如下步骤:步骤1,对蒙汉平行语料进行预处理;步骤2,将预处理得到的蒙汉平行语料数据集划分为训练集,验证集和测试集三部分;步骤3,搭建共享编码器的自回归翻译模型和非自回归翻译模型,并由共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器构成一个多任务学习框架;步骤4,在所述多任务学习框架下,基于所述训练集训练所述非自回归翻译模型,从而将自回归翻译模型的知识转移到非自回归翻译模型;步骤5,利用步骤4得到的非自回归翻译模型执行蒙汉翻译。2.根据权利要求1所述基于多任务学习的蒙汉非自回归机器翻译方法,其特征在于,所述步骤1,对于汉语,先进行分词处理,然后再使用BPE进行切分;对于蒙古语,直接使用BPE切分。3.根据权利要求1所述基于多任务学习的蒙汉非自回归机器翻译方法,其特征在于,所述步骤3,自回归翻译模型解码器的输入是上一步解码出的结果,每一步解码生成都依赖于上一步解码的结果,当解码到EOS标志时,序列的生成过程自动停止,得到最终的解码序列;非自回归翻译模...

【专利技术属性】
技术研发人员:苏依拉朱苏东仁庆道尔吉吉亚图
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1