一种基于混合粒度的句子级机器翻译质量估计模型训练方法技术

技术编号:22594909 阅读:126 留言:0更新日期:2019-11-20 11:11
本发明专利技术公开了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,所述训练方法包括以下步骤:步骤一:对机器译文进行词语级翻译质量标注;步骤二:对源文和机器译文进行基于深度学习方法的翻译质量特征抽取;步骤三:进行混合粒度的句子级翻译质量估计模型的训练,通过训练目标计算误差,再通过梯度反向传播更新模型的参数。本发明专利技术提出了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,该方法相对于传统方法的优势主要在于:经过基于混合粒度的模型训练之后,与单一粒度下的训练相比,引入词语级上的翻译质量信息能取得较好的提升。

A training method of sentence level machine translation quality estimation model based on mixed granularity

The invention discloses a sentence level machine translation quality estimation model training method based on mixed granularity, the training method includes the following steps: Step 1: mark the word level translation quality of machine translation; step 2: extract the translation quality features of source text and machine translation based on the depth learning method; step 3: carry out sentence level translation quality of mixed granularity In the training of the model, the error is calculated by training target, and then the parameters of the model are updated by gradient back propagation. The invention proposes a sentence level machine translation quality estimation model training method based on mixed granularity. The advantages of the method over the traditional method are: after the model training based on mixed granularity, compared with the training under a single granularity, the introduction of translation quality information at the word level can achieve better improvement.

【技术实现步骤摘要】
一种基于混合粒度的句子级机器翻译质量估计模型训练方法
本专利技术属于机器翻译质量估计领域,提出了一种基于混合粒度的句子级机器翻译质量估计模型训练方法。
技术介绍
在机器翻译研究领域,质量估计(QualityEstimation,简称QE)是指在不依赖于参考译文的情况下对机器翻译系统的输出进行质量预测,其结果可以快速的判断出机器翻译质量的好坏。这一功能对于机器翻译的研究人员和最终用户来说,都具有显而易见的应用价值,引起广泛关注。在机器翻译质量估计任务中,存在不同语言粒度的质量估计任务,即需要在不同的语言粒度(如句子级、词级)下给出译文的质量。随着深度学习的出现,通过对数据的分布式表示,缓解了传统机器学习方法数据稀疏的问题。因此,在机器翻译质量估计研究中,基于深度学习的机器翻译质量估计模型也成为了主流的研究方法。KimH等人提出了一种基于循环神经网络的预测器-评估器的深度模型,KaiF等人提出基于双向Transformer作为特征抽取模型,且将抽取的质量向量通过双向循环神经网络进行质量预测。这些基于深度学习的方法与传统方法相比均取得了更好的效果。对于已有的基于深度学习的翻译质量估计模型的训练而言,其在各个语言粒度任务上的训练大都是相互独立的。但实际上,在各个粒度上的译文质量估计任务间存在明显的关联。例如,译文中的每个词的翻译质量都影响着句子整体的翻译质量,若机器译文中存在大量翻译错误的词,则译文的句子级得分将较差。相反的,若机器译文大部分词的质量标签是正面的,则该译文句子级得分将较好。在机器翻译质量估计的研究中,句子级的翻译质量估计任务是应用最为广泛的子任务。对于已有的句子级翻译质量估计模型的训练方法,大都是在给定的句子级训练数据下训练得到,只有较少在句子级QE模型的训练时显式地引入来自其他语言粒度信息的方法。已有的使用来自其他语言粒度的信息的方法是从数据扩展的角度出发,即对于句子级的QE任务加入从其他语言粒度上转换得到的标注数据,从而增加了句子级的QE训练数据规模。这样的方法只是简单的扩充了训练数据的规模,并未在模型的学习与训练过程中引入额外语言粒度的信息。鉴于已有句子级QE模型训练方法未考虑到各粒度任务之间存在联系的缺陷,本专利技术提出一种基于混合粒度的句子级机器翻译质量估计模型训练方法。通过显式地利用来自词语级翻译质量的信息,在句子级的翻译质量估计模型的训练过程中引入词语级翻译质量的约束,进而提升句子级翻译质量估计模型的性能。在机器翻译质量估计任务中,若将源语言句子表示为s,机器译文表示为m,在机器译文上进行人工编辑所形成的可接受译文(称之为后编辑译文)表示为t,t将用于各个语言粒度的标注的生成。具体地,对于句子级的质量估计而言,其输入为(s,m),输出为句子级翻译得分h。句子级的质量估计模型可表示为P(h|s,m),即在源语言句子s和机器译文m已知的条件下,对译文的质量分数h进行预测,其模型训练目标为:其中,n为样本个数,为模型预测结果,hi为数据真实标签。参照图1所示,图1为已有的不同粒度下主流翻译质量估计方法框架图。对于词语级的质量估计而言,其输入为(s,m),输出为由OK或BAD组成的质量标记序列y。词语级的质量估计模型可表示为P(y|s,m),即在源语言句子s和机器译文m已知的条件下,对译文中的每个词的质量标签y进行预测。目标函数为交叉熵函数:其中,p(x)表示真实质量标签分布,q(x)表示预测的质量标签分布。参照图1所示,已有的翻译质量估计模型的训练方法在训练P(h|s,m)与P(y|s,m)时模型各个模块的训练是相互独立的,并未利用各语言粒度间翻译质量存在的内在联系。
技术实现思路
本专利技术的目的是提出一种基于混合粒度的句子级机器翻译质量估计模型训练方法,可以在训练句子级的翻译质量估计模型时,引入来自词语级的翻译质量信息,从而可以显式地利用不同语言粒度的翻译质量估计任务之间的内在关联,进而提升句子级粒度下翻译质量估计模型的性能。本专利技术通过以下技术方案实现:一种基于混合粒度的句子级机器翻译质量估计模型训练方法,所述训练方法包括以下步骤:步骤一:对机器译文进行词语级翻译质量标注;步骤二:对源文和机器译文进行基于深度学习方法的翻译质量特征抽取;步骤三:进行混合粒度的句子级翻译质量估计模型的训练,基于混合粒度的句子级机器翻译质量估计的训练目标为:Jmulti=λ*Jsent+(1-λ)*Jword其中,Jmulti为整体误差,Jsent为句子级误差;Jword为词语级误差;λ作为引入额外语言粒度信息的权重因子,是模型训练过程中的一个超参数,表示引入额外语言粒度信息所占的比重,通过上述训练目标计算误差,再通过梯度反向传播更新模型的参数。进一步的,步骤一包括以下步骤:步骤一一:引入句子级翻译质量估计任务的标注数据(S,M,H,T),其中,S为源文,M为译文,H为句子级分数,T为后编辑译文;步骤一二:通过机器译文M与人工后编辑译文T之间的编辑距离过程获得词语级翻译质量标签Y;步骤一三:用于混合粒度的句子级翻译质量估计的训练数据变为(S,M,H,Y)。进一步的,步骤二包括以下步骤:步骤二一:在双语平行语料下训练得到特征抽取器;步骤二二:使用特征抽取器对源文S和译文M进行编码,得到特征向量。进一步的,步骤三包括以下步骤:步骤三一:将特征向量作为将特征向量作为混合粒度的机器翻译质量估计器的输入,得到预测的句子级分数和词语级标签步骤三二:对计算误差得到Jsent和Jword;步骤三三:计算整体误差:Jmulti=λ*Jsent+(1-λ)*Jword步骤三四:反向传播误差Jmulti更新模型参数。本专利技术的有益效果在于:本专利技术提出了一种基于混合粒度的句子级机器翻译质量估计模型训练方法,该方法相对于传统方法的优势主要在于:经过基于混合粒度的模型训练之后,与单一粒度下的训练相比,引入词语级上的翻译质量信息能取得较好的提升。附图说明图1为已有的不同粒度下主流翻译质量估计方法框架;图2为本专利技术的一种基于混合粒度的句子级机器翻译质量估计模型训练方法的流程图;图3为本专利技术的一种基于混合粒度的句子级机器翻译质量估计模型训练方法的模型架构图。具体实施方式下面将结合本专利技术实施例中的附图对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参照图2-图3所示,本专利技术通过以下技术方案实现:一种基于混合粒度的句子级机器翻译质量估计模型训练方法,所述训练方法包括以下步骤:步骤一:对机器译文进行词语级翻译质量标注;步骤二:对源文和机器译文进行本文档来自技高网
...

【技术保护点】
1.一种基于混合粒度的句子级机器翻译质量估计模型训练方法,其特征在于,所述训练方法包括以下步骤:/n步骤一:对机器译文进行词语级翻译质量标注;/n步骤二:对源文和机器译文进行基于深度学习方法的翻译质量特征抽取;/n步骤三:进行混合粒度的句子级翻译质量估计模型的训练,基于混合粒度的句子级机器翻译质量估计的训练目标为:/nJ

【技术特征摘要】
1.一种基于混合粒度的句子级机器翻译质量估计模型训练方法,其特征在于,所述训练方法包括以下步骤:
步骤一:对机器译文进行词语级翻译质量标注;
步骤二:对源文和机器译文进行基于深度学习方法的翻译质量特征抽取;
步骤三:进行混合粒度的句子级翻译质量估计模型的训练,基于混合粒度的句子级机器翻译质量估计的训练目标为:
Jmulti=λ*Jsent+(1-λ)*Jword
其中,Jmulti为整体误差,Jsent为句子级误差;Jword为词语级误差;λ作为引入额外语言粒度信息的权重因子,是模型训练过程中的一个超参数,表示引入额外语言粒度信息所占的比重,
通过上述训练目标计算误差,再通过梯度反向传播更新模型的参数。


2.根据权利要求1所述的一种基于混合粒度的句子级机器翻译质量估计模型训练方法,其特征在于,步骤一包括以下步骤:
步骤一一:引入句子级翻译质量估计任务的标注数据(S,M,H,T),其中,S为源文,M为译文,H为句子级分数...

【专利技术属性】
技术研发人员:杨沐昀吴焕钦赵铁军王佳麒朱聪慧曹海龙徐冰
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1