一种动态调整长度惩罚及译文长度的翻译模型优化方法技术

技术编号:24207987 阅读:18 留言:0更新日期:2020-05-20 15:31
本发明专利技术公开一种动态调整长度惩罚及译文长度的翻译模型优化方法,步骤为:获取指定语种方向的标准数据作为各种指标预测的标准双语数据集;对标准双语数据集进行分词操作,并进一步训练得到新的训练数据集;对神经机器翻译模型解码器部分进行修改,自动预测出当前句对最优的长度惩罚值;进行长度统计,得到目标语句子长度;准备独立的前馈神经网络模型,使模型最终预测的生成译文更加趋向于最佳长度的译文结果;Transformer神经机器翻译模型针对不同的句子动态的调整其长度惩罚以及最佳译文句子长度。本发明专利技术实现了模型翻译过程中长度惩罚以及译文长度的动态调整,实现简单、方法有效,实用性强,模型译文质量提升效果明显。

A translation model optimization method for dynamically adjusting length penalty and translation length

【技术实现步骤摘要】
一种动态调整长度惩罚及译文长度的翻译模型优化方法
本专利技术涉及一种机器翻译领域,具体为一种动态调整长度惩罚及译文长度的翻译模型优化方法。
技术介绍
近几年来,使用神经网络技术构建的许多自然语言处理任务均取得了最优的效果,如神经机器翻译等。使用神经网络技术架构的机器翻译模型,又称为神经机器翻译。其作为一种具备超强学习能力的机器翻译模型,往往需要使用大规模高质量的双语平行语料库进行训练支撑。神经机器翻译模型实际上是能够自动地将某个语种中一定长度的句子通过计算机将其翻译为另一个语种中一定长度的译文句子的模型结构,其中主要由编码器与解码器组成,其中编码器的作用是能够将输入句子(源语言句子)编码成为指定维度的向量表示的结构。解码器的主要作用是能够将在编码器处得到的指定维度的向量解码成为译文句子。另外,在语言翻译的领域中,通常认为若将某一语种的句子翻译成为另一个语种的译文句子,其原始句子长度与译文句子长度间是存在一定统计规律的。例如,通常来说一句中文的英文译文句子相对较长,但一句英文的中文译文则相对较短。在机器翻译领域,神经机器翻译模型中往往使用长度惩罚值用于限制某一项翻译任务中,其译文句子的生成长度。其值越大,则神经机器翻译模型将更加偏向于长句子译文的生成,反之则更加偏向于短句子。虽然不同语种间的翻译任务针对数据集整体的译文长度与原始句子长度间的存在一定的规律,但单一句子与句子之间的翻译任务中,该长度比例存在一定差异。如例所示:源语:今天天气怎么样?目标语:What’stheweatherliketoday?源语:产学研三方融合?目标语:Theintegrationofproduction,teachingandresearch.由上例可知,其源语句子与目标语句子语种分别为中文、英文,在中到英机器翻译任务中,对于该种情况来说,不同句子需要对应不同的长度惩罚值,很明显例子中的第二条句对需要比第一条句对更大的长度惩罚值参与其译文句子结果的生成过程。在以往的研究工作中,神经机器翻译模型中的长度惩罚值都是依据不同语种间互译的经验值进行设置,是一个固定值。也就是说该值的大小完全依赖经验进行设置且模型的训练、测试以及使用的过程中均不会对其进行修改,这种方式将对模型生成的译文句子质量产生一定程度的影响。
技术实现思路
针对现有方法中的神经机器翻译模型训练过程中长度惩罚值将对模型生成的译文句子质量产生一定程度的影响等不足,本专利技术方法提出了一种动态调整长度惩罚及译文长度的翻译模型优化方法,使神经机器翻译模型在训练的过程中能够获取最优的长度惩罚值以及最佳译文句子长度值,并使这两个值参与到模型译文生成过程。为解决上述技术问题,本专利技术采用的技术方案是:本专利技术一种动态调整长度惩罚及译文长度的翻译模型优化方法,包括以下步骤:1)获取指定语种方向的标准数据作为各种指标预测的标准双语数据集;2)对标准双语数据集进行分词操作,得到分词后标准双语训练数据集;3)根据标准双语数据集,使用不同长度惩罚值将双语句对通过公开的Transformer神经机器翻译模型进行解码操作,将获取得到的所有最优长度惩罚值与原始标准双语数据集组合成为新的训练数据集;4)对神经机器翻译模型解码器部分进行修改,使用带有长度惩罚值的数据集,对修改后的神经机器翻译模型进行训练,使最终训练完成后的模型在翻译的过程中,能够自动预测出当前句对最优的长度惩罚值;5)使用步骤2)中获取得到的分词后标准双语训练数据集,对目标语句子分词后的结果进行长度统计,得到目标语句子长度;并将长度信息加至双语数据集作为最终数据集用于后续模型训练过程;6)准备独立的前馈神经网络模型,使用最终数据集对前馈神经网络模型进行训练,使该模型最终能够对其自动生成译文句子的最佳长度进行预测;7)在Transformer神经机器翻译模型解码过程中,对于每一句待翻译句子,根据解码器端获取到模型预测的最佳译文长度,通过优化模型中beamsearch部分的评分函数,使模型预测最佳长度参与到译文结果生成的评分函数中,使模型最终预测的生成译文更加趋向于最佳长度的译文结果;8)对翻译模型本身进行修改以及独立模型的准备后,Transformer神经机器翻译模型在训练周期内针对不同的句子动态的调整其长度惩罚以及最佳译文句子长度,使其最终生成更加优质的译文结果。步骤3)中,使用不同大小的长度惩罚值对获取得到的标准双语数据集中的源语句子逐句进行翻译,翻译完成后利用BLEU值作为翻译质量的度量标准,针对每一条句对均选举出其最优的长度惩罚值,使当前源语句子的机器翻译结果取得最高的BLEU值评分。步骤4)中,对神经机器翻译模型解码器部分进行修改为:使用其解码器部分能够实现当前句子的最优长度惩罚值进行预测,使每一条句子均能够获取得到其最优的长度惩罚值,利用模型生成的当前最优长度惩罚值能够影响模型译文句子生成结果,使模型生成更加优质的译文。步骤6)中,准备独立的前馈神经网络模型为:使用独立的前馈神经网络模型结构实现最佳译文长度的预测,参与到Transformer神经网络模型解码过程中,在过程中能够使每一条句子均能够获取得到最佳的译文长度值。步骤7)中,根据Transformer神经网络模型翻译过程中动态预测得到的最佳译文长度值,提出了一种新的beamsearch打分函数,使预测得到的最优译文长度值能够直接影响模型译文结果的生成;并且,模型能够动态设置可接受的译文长度范围,用于进一步约束译文结果生成,减小模型生成异常句子的风险。本专利技术具有以下有益效果及优点:1.本专利技术在原有神经机器翻译模型的基础上,根据基础句子集合中分词后的双语句对,使用长度惩罚预测以及最佳译文长度预测的方式实现了模型优化方法,能够使模型在翻译的过程中动态的调整长度惩罚值并生成最佳译文长度值,实现了模型生成译文质量的提升,是一种实现简单、方便有效的模型优化方法。2.本专利技术使用长度惩罚预测以及最佳译文长度预测两种方式实现翻译模型优化,架构透明,对各个语种的机器翻译模型的译文生成质量均能够达到有效提升,是一种通用的模型优化方法,能够快速地对译文结果进行调优,达到一种高效且准确的模型优化方法。程序结构简单,方法清晰。附图说明图1为本专利技术方法中编码器部分改进方法图;图2为本专利技术方法中独立预测网络模型结构图。具体实施方式下面结合说明书附图对本专利技术作进一步阐述。本专利技术提出一种动态调整长度惩罚及译文长度的翻译模型优化方法,在模型翻译的过程中能够动态的对最优长度惩罚以及最佳译文长度进行预测,是一种有效的模型优化方法。本专利技术一种动态调整长度惩罚及译文长度的翻译模型优化方法,包括以下步骤:1)获取指定语种方向的标准数据作为各种指标预测的标准双语数据集;2)对标准双语数据集进行分词操作,得到分词后标准双语训练数据集;3)根据标准双语数据集,使用不同长度本文档来自技高网
...

【技术保护点】
1.一种动态调整长度惩罚及译文长度的翻译模型优化方法,其特征在于包括以下步骤:/n1)获取指定语种方向的标准数据作为各种指标预测的标准双语数据集;/n2)对标准双语数据集进行分词操作,得到分词后标准双语训练数据集;/n3)根据标准双语数据集,使用不同长度惩罚值将双语句对通过公开的Transformer神经机器翻译模型进行解码操作,将获取得到的所有最优长度惩罚值与原始标准双语数据集组合成为新的训练数据集;/n4)对神经机器翻译模型解码器部分进行修改,使用带有长度惩罚值的数据集,对修改后的神经机器翻译模型进行训练,使最终训练完成后的模型在翻译的过程中,能够自动预测出当前句对最优的长度惩罚值;/n5)使用步骤2)中获取得到的分词后标准双语训练数据集,对目标语句子分词后的结果进行长度统计,得到目标语句子长度;并将长度信息加至双语数据集作为最终数据集用于后续模型训练过程;/n6)准备独立的前馈神经网络模型,使用最终数据集对前馈神经网络模型进行训练,使该模型最终能够对其自动生成译文句子的最佳长度进行预测;/n7)在Transformer神经机器翻译模型解码过程中,对于每一句待翻译句子,根据解码器端获取到模型预测的最佳译文长度,通过优化模型中beam search部分的评分函数,使模型预测最佳长度参与到译文结果生成的评分函数中,使模型最终预测的生成译文更加趋向于最佳长度的译文结果;/n8)对翻译模型本身进行修改以及独立模型的准备后,Transformer神经机器翻译模型在训练周期内针对不同的句子动态的调整其长度惩罚以及最佳译文句子长度,使其最终生成更加优质的译文结果。/n...

【技术特征摘要】
1.一种动态调整长度惩罚及译文长度的翻译模型优化方法,其特征在于包括以下步骤:
1)获取指定语种方向的标准数据作为各种指标预测的标准双语数据集;
2)对标准双语数据集进行分词操作,得到分词后标准双语训练数据集;
3)根据标准双语数据集,使用不同长度惩罚值将双语句对通过公开的Transformer神经机器翻译模型进行解码操作,将获取得到的所有最优长度惩罚值与原始标准双语数据集组合成为新的训练数据集;
4)对神经机器翻译模型解码器部分进行修改,使用带有长度惩罚值的数据集,对修改后的神经机器翻译模型进行训练,使最终训练完成后的模型在翻译的过程中,能够自动预测出当前句对最优的长度惩罚值;
5)使用步骤2)中获取得到的分词后标准双语训练数据集,对目标语句子分词后的结果进行长度统计,得到目标语句子长度;并将长度信息加至双语数据集作为最终数据集用于后续模型训练过程;
6)准备独立的前馈神经网络模型,使用最终数据集对前馈神经网络模型进行训练,使该模型最终能够对其自动生成译文句子的最佳长度进行预测;
7)在Transformer神经机器翻译模型解码过程中,对于每一句待翻译句子,根据解码器端获取到模型预测的最佳译文长度,通过优化模型中beamsearch部分的评分函数,使模型预测最佳长度参与到译文结果生成的评分函数中,使模型最终预测的生成译文更加趋向于最佳长度的译文结果;
8)对翻译模型本身进行修改以及独立模型的准备后,Transformer神经机器翻译模型在训练周期内针对不同的句子动态的调整其长度惩罚以及最佳译文句子长度,使其最终生成更加优质的译...

【专利技术属性】
技术研发人员:杜权李自荐朱靖波肖桐张春良
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1