机器翻译的校准优化方法、装置与电子设备制造方法及图纸

技术编号:20944575 阅读:31 留言:0更新日期:2019-04-24 02:25
本发明专利技术实施例提供一种机器翻译的校准优化方法、装置与电子设备,其中所述方法包括:基于目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑;其中,所述训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一所述训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文。本发明专利技术实施例能够有效的将机器翻译自动质量评估和自动后编辑这两个相互独立又密切相关的任务进行紧密结合,从而能够更有效的提高后编辑效率及翻译质量。

Calibration optimization methods, devices and electronic devices for machine translation

The embodiment of the present invention provides a calibration optimization method, device and electronic equipment for machine translation, which includes: based on the original text and machine translation of the target document, using the neural network model of multi-task learning completed by training, evaluating the quality of machine translation, and automatically editing the machine translation of the target document; in which, the training is completed; The neural network model of multi-task learning is obtained by using a certain number of training samples in advance, and the neural network model of basic multi-task learning is updated by iteration training. Any training sample includes sample original text, sample machine translation, sample machine translation quality label and sample post-editing text. The embodiment of the present invention can effectively combine the two independent and closely related tasks of automatic quality assessment and automatic post-editing of machine translation, thereby improving post-editing efficiency and translation quality more effectively.

【技术实现步骤摘要】
机器翻译的校准优化方法、装置与电子设备
本专利技术实施例涉及机器翻译
,更具体地,涉及一种机器翻译的校准优化方法、装置与电子设备。
技术介绍
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。虽然当前机器翻译系统的总体翻译质量在不断地提高,但其质量的稳定性还无法得到保障。例如,对于一些特殊任务翻译的输入,其输出的质量有时无法满足一定标准。这种情况下,翻译人员在后编辑这些质量忽高忽低的译文时,往往需要花费大量的精力和时间去做审校,这无疑会影响译员的工作效率。机器翻译自动质量评估(QualityEstimationforMachineTranslation,QE)可以对机器翻译引擎输出句子的质量进行智能预测。通过显式的质量标注,翻译人员可以轻松地选择是在机器翻译结果的基础上做后编辑,还是自己从头开始翻译。然而,实际应用中往往希望智能辅助翻译能够更进一步地来协助翻译工作。这项任务即是自动后编辑(AutomaticPost-Edit,APE)。自动后编辑任务并不是发生在机器翻译引擎的内部,而是将引擎系统视为一个黑盒,并对这个黑盒的输出在外部进行自动化的修正,以获得质量更好的译文。那么,如何将机器翻译自动质量评估和自动后编辑这两个相互独立的任务进行有效结合以更有效的提高翻译质量的问题,成为目前业界亟待解决的需要课题。
技术实现思路
为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种机器翻译的校准优化方法、装置与电子设备,用以将机器翻译自动质量评估和自动后编辑进行有效的结合,从而能够更有效的提高后编辑效率及翻译质量。第一方面,本专利技术实施例提供一种机器翻译的校准优化方法,包括:基于目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑;其中,所述训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一所述训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文。第二方面,本专利技术实施例提供一种机器翻译的校准优化装置,包括:数据获取模块,用于获取目标文档的原文和机器译文;评估与后编辑输出模块,用于基于所述目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑;其中,所述训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一所述训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文。第三方面,本专利技术实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与机器翻译设备之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的机器翻译的校准优化方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上第一方面所述的机器翻译的校准优化方法。本专利技术实施例提供的机器翻译的校准优化方法、装置与电子设备,通过采用多任务学习的神经网络模型,并事先利用包含样本机器翻译质量标签和样本后编辑文的训练样本对模型进行训练,能够有效的将机器翻译自动质量评估和自动后编辑这两个相互独立又密切相关的任务进行紧密结合,从而能够更有效的提高后编辑效率及翻译质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的机器翻译的校准优化方法的流程示意图;图2根据本专利技术一实施例提供的机器翻译的校准优化方法中多任务学习的神经网络模型的结构示意图;图3为本专利技术实施例提供的机器翻译的校准优化装置的结构示意图;图4为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术实施例的一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。本专利技术实施例针对现有技术中后编辑任务由人工完成,耗时耗力、效率低等的问题,通过采用多任务学习的神经网络模型,并事先利用包含样本机器翻译质量标签和样本后编辑文的训练样本对模型进行训练,能够有效的将机器翻译自动质量评估和自动后编辑这两个相互独立又密切相关的任务进行紧密结合,从而能够更有效的提高后编辑效率及翻译质量。以下将具体通过多个实施例对本专利技术实施例进行展开说明和介绍。图1为本专利技术实施例提供的机器翻译的校准优化方法的流程示意图,如图1所示,该方法包括:S101,获取目标文档的原文和机器译文。可以理解,对于待处理的目标文档,其通常是由某一种语种的语言表述的,即为原文。对该目标文档进行翻译,即是将其转换为相同语义的另外一种语种的语言表述,即为译文。在利用机器进行文档翻译的过程中,输入目标文档的原文,翻译机器可根据该原文输出对应的机器译文。由于机器翻译本身的局限性,机器翻译直接输出的机器译文的质量通常得不到保障。例如,对于原文“LittleJohnfoundforthetoyboxinthepen”,利用机器翻译可能会得到机器译文“小约翰在笔中找到了玩具箱”,显然机器翻译的结果与现实场景存在差异。而后编辑是指对翻译机器直接输出的机器译文进行进一步校准和编辑,从而使翻译出的译文的语义与原文更相符合。因此在对机器译文进行后编辑之前,先要获取该原文和机器译文。例如,可以从机器翻译引擎获取该原文和机器译文,也可以从数据库中获取。S102,基于目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对目标文档的机器译文进行自动后编辑。其中,训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文。可以理解,机器翻译自动质量评估和自动后编辑虽是两个独立的任务,但它们之间的相关度很大。首先,两个任务都是利用类似的数据集,并利用监督型机器学习算法训练模型来实现的,即待翻译的原文,机器翻译的译文和译员后编辑的译文;其次,两者通过一些策略进行组合往往能够提供更好的输出结果。因此,本专利技术实施例利用基于多任务学习(Multi-TaskLearning,MTL)神经网络模型,同时做(句子层面的)机器翻译质量评估和自动化后编辑这两项相关性较大的任务。具体而言,在根据上述步骤获取目标文档的原文和机器译文本文档来自技高网...

【技术保护点】
1.一种机器翻译的校准优化方法,其特征在于,包括:基于目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑;其中,所述训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一所述训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文。

【技术特征摘要】
1.一种机器翻译的校准优化方法,其特征在于,包括:基于目标文档的原文和机器译文,利用训练完成的多任务学习的神经网络模型,进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑;其中,所述训练完成的多任务学习的神经网络模型是事先利用一定量的训练样本,对基础多任务学习的神经网络模型进行迭代训练更新获取的,任一所述训练样本包括样本原文、样本机器译文、样本机器翻译质量标签和样本后编辑文。2.根据权利要求1所述的方法,其特征在于,利用所述训练样本,训练获取所述训练完成的多任务学习的神经网络模型的步骤具体包括:对于任一所述训练样本,基于该训练样本,利用所述基础多任务学习的神经网络模型,输出该训练样本的预测机器翻译质量和预测后翻译文;分别将所述预测机器翻译质量与所述样本机器翻译质量标签、所述预测后翻译文和所述样本后编辑文进行比较,获取预测误差;基于所述预测误差,利用反向传播算法和梯度下降算法,更新所述基础多任务学习的神经网络模型的参数,并将更新后的基础多任务学习的神经网络模型作为下一个训练样本的基础多任务学习的神经网络模型,直至获取所述训练完成的多任务学习的神经网络模型。3.根据权利要求2所述的方法,其特征在于,在利用所述训练样本,训练获取所述训练完成的多任务学习的神经网络模型的步骤之前,还包括:获取对所述样本机器译文的后编辑成本,并基于所述后编辑成本和所述样本原文,通过归一化处理和分段处理,获取所述样本机器翻译质量标签;所述后编辑成本表示对所述样本机器译文进行后编辑,获取所述样本后编辑文所花费的成本。4.根据权利要求3所述的方法,其特征在于,所述基于所述后编辑成本和所述样本原文,通过归一化处理和分段处理,获取所述样本机器翻译质量标签的步骤具体包括:对所述后编辑成本和所述样本原文的长度做相除运算,并对相除运算的结果进行归一化处理;基于归一化处理结果的取值,将所述归一化处理结果转换为不同等级的所述样本机器翻译质量标签。5.根据权利要求1所述的方法,其特征在于,所述进行机器翻译质量评估,并对所述目标文档的所述机器译文进行自动后编辑的步骤具体包括:对所述目标文档的原文和机器译文分别进行分词处理,并将分词处理的结果输入...

【专利技术属性】
技术研发人员:张睦
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1