The embodiment of the present invention provides a calibration optimization method, device and electronic equipment for machine translation, which includes: based on the original text and machine translation of the target document, using the neural network model of multi-task learning completed by training, evaluating the quality of machine translation, and automatically editing the machine translation of the target document; in which, the training is completed; The neural network model of multi-task learning is obtained by using a certain number of training samples in advance, and the neural network model of basic multi-task learning is updated by iteration training. Any training sample includes sample original text, sample machine translation, sample machine translation quality label and sample post-editing text. The embodiment of the present invention can effectively combine the two independent and closely related tasks of automatic quality assessment and automatic post-editing of machine translation, thereby improving post-editing efficiency and translation quality more effectively.
【技术实现步骤摘要】
机器翻译的校准优化方法、装置与电子设备
本专利技术实施例涉及机器翻译
,更具体地,涉及一种机器翻译的校准优化方法、装置与电子设备。
技术介绍
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。虽然当前机器翻译系统的总体翻译质量在不断地提高,但其质量的稳定性还无法得到保障。例如,对于一些特殊任务翻译的输入,其输出的质量有时无法满足一定标准。这种情况下,翻译人员在后编辑这些质量忽高忽低的译文时,往往需要花费大量的精力和时间去做审校,这无疑会影响译员的工作效率。机器翻译自动质量评估(QualityEstimationforMachineTranslation,QE)可以对机器翻译引擎输出句子的质量进行智能预测。通过显式的质量标注,翻译人员可以轻松地选择是在机器翻译结果的基础上做后编辑,还是自己从头开始翻译。然而,实际应用中往往希望智能辅助翻译能够更进一步地来协助翻译工作。这项任务即是自动后编辑(AutomaticPost-Edit,APE)。自动后编辑任务并不是发生在机器翻译引擎的内部,而是将引擎系统视为一个黑盒,并对这个黑盒的输出在外部进行自动化的修正,以获得质量更好的译文。那么,如何将机器翻译自动质量评估和自动后编辑这两个相互独立的任务进行有效结合以更有效的提高翻译质量的问题,成为目前业界亟待解决的需要课题。
技术实现思路
为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种机器翻译的校准优化方法、装置与电子设备,用以将机器翻译自动质量评估和自动后编辑进行有效的结合,从而能够更有效的提高后编辑效率及翻译质量 ...
【技术保护点】
1.一种机器翻译的校准优化方法,其特征在于,包括:基于目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑;其中,所述训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一所述训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文。
【技术特征摘要】
1.一种机器翻译的校准优化方法,其特征在于,包括:基于目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑;其中,所述训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一所述训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文。2.根据权利要求1所述的方法,其特征在于,利用所述训练样本,训练获取所述训练完成的多任务学习的神经网络模型的步骤具体包括:对于任一所述训练样本,基于该训练样本,利用所述基础多任务学习的神经网络模型,输出该训练样本的预测机器翻译质量和预测后翻译文;分别将所述预测机器翻译质量与所述样本机器翻译质量标签、所述预测后翻译文和所述样本后编辑文进行比较,获取预测误差;基于所述预测误差,利用反向传播算法和梯度下降算法,更新所述基础多任务学习的神经网络模型的参数,并将更新后的基础多任务学习的神经网络模型作为下一个训练样本的基础多任务学习的神经网络模型,直至获取所述训练完成的多任务学习的神经网络模型。3.根据权利要求2所述的方法,其特征在于,在利用所述训练样本,训练获取所述训练完成的多任务学习的神经网络模型的步骤之前,还包括:获取对所述样本机器译文的后编辑成本,并基于所述后编辑成本和所述样本原文,通过归一化处理和分段处理,获取所述样本机器翻译质量标签;所述后编辑成本表示对所述样本机器译文进行后编辑,获取所述样本后编辑文所花费的成本。4.根据权利要求3所述的方法,其特征在于,所述基于所述后编辑成本和所述样本原文,通过归一化处理和分段处理,获取所述样本机器翻译质量标签的步骤具体包括:对所述后编辑成本和所述样本原文的长度做相除运算,并对相除运算的结果进行归一化处理;基于归一化处理结果的取值,将所述归一化处理结果转换为不同等级的所述样本机器翻译质量标签。5.根据权利要求1所述的方法,其特征在于,所述进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑的步骤具体包括:对所述目标文档的原文和机器译文分别进行分词处理,并将分词处理的结果输入...
【专利技术属性】
技术研发人员:张睦,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。