一种单词级质量标签的生成方法及装置制造方法及图纸

技术编号:25990051 阅读:17 留言:0更新日期:2020-10-20 18:58
本发明专利技术提供一种单词级质量标签的生成方法及装置,方法包括:步骤1:基于参考译文对机翻译文进行质量评分,得到第一质量分;步骤2:对所述机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的所述机翻译文;步骤3:基于所述参考译文对所述编辑操作后的所述机翻译文进行质量评分,得到第二质量分;步骤4:获取所述第二质量分相对于所述第一质量分的变化量;步骤5:基于所述变化量生成所述目标单词的质量标签。本发明专利技术能够提高单词级质量标签的生成效率。

【技术实现步骤摘要】
一种单词级质量标签的生成方法及装置
本专利技术涉及机器翻译领域,特别涉及一种单词级质量标签的生成方法及装置。
技术介绍
基于质量评估模型评估机器翻译译文的质量,是近几年机器翻译领域的研究热点。训练质量评估模型时,需要三元组数据:原文、机翻译文(机器翻译文、机器翻译译文)和参考译文(后编辑译文)。在进行单词级质量评估时,训练数据中还需包含机翻译文中每个单词的质量标签(如OK或BAD)。目前在生成机翻译文中单词的质量标签时,普遍使用的是基于翻译错误率(TER,TranslationErrorRate)的方法,即假设将机翻译文编辑为参考译文,机翻译文中的单词是否需要被编辑作为该单词标注为OK或BAD的依据。TER的计算已经被证明是一个NP完全问题,只能使用启发式方法才能获得多项式时间复杂度的近似解,该方法复杂度较高,导致生成单词级质量标签的效率不高。
技术实现思路
本专利技术的目的是提供一种单词级质量标签的生成方法及装置,能够提高单词级质量标签的生成效率。第一方面,本专利技术实施例提供一种单词级质量标签的生成方法,包括:步骤1:基于参考译文对机翻译文进行质量评分,得到第一质量分;步骤2:对所述机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的所述机翻译文;步骤3:基于所述参考译文对所述编辑操作后的所述机翻译文进行质量评分,得到第二质量分;步骤4:获取所述第二质量分相对于所述第一质量分的变化量;步骤5:基于所述变化量生成所述目标单词的质量标签。可选地,所述基于所述变化量生成所述目标单词的质量标签,之后包括:对于所述机翻译文中去除所述目标单词后剩余的每个单词,执行步骤2至步骤5,直至生成所述机翻译文中每个单词的质量标签。可选地,所述基于参考译文对机翻译文进行质量评分,得到第一质量分,包括:计算机翻译文和参考译文之间的双语评估替换BLEU值,所述BLEU值用于表征所述机翻译文相对应所述参考译文的第一质量分。可选地,所述对所述机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的所述机翻译文,包括:从所述机翻译文中删除任意一个目标单词,得到删除后的所述机翻译文。可选地,所述获取所述第二质量分相对于所述第一质量分的变化量,包括:将所述第二质量分减去所述第一质量分,得到质量分差值,所述质量分差值用于表征所述第二质量分相对于所述第一质量分的变化量。可选地,所述基于所述变化量生成所述目标单词的质量标签,包括:若所述质量分差值小于预设阈值,则生成将所述目标单词标注为OK的质量标签;若所述质量分差值不小于所述预设阈值,则生成将所述目标单词标注为BAD的质量标签。第二方面,本专利技术实施例提供一种单词级质量标签的生成装置,包括:第一处理模块,用于基于参考译文对机翻译文进行质量评分,得到第一质量分;编辑模块,用于对所述机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的所述机翻译文;第二处理模块,用于基于所述参考译文对所述编辑操作后的所述机翻译文进行质量评分,得到第二质量分;获取模块,用于获取所述第二质量分相对于所述第一质量分的变化量;生成模块,用于基于所述变化量生成所述目标单词的质量标签。可选地,所述装置还包括:第三处理模块,用于对于所述机翻译文中去除所述目标单词后剩余的每个单词,执行所述编辑模块、第二处理模块、获取模块及生成模块中的动作,直至生成所述机翻译文中每个单词的质量标签。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。本专利技术实施例提供的单词级质量标签的生成方法及装置,针对机翻译文中的任意一个目标单词,会进行相应地编辑操作,得到编辑后的机翻译文,根据编辑操作前的机翻译文的质量得分和编辑操作后的机翻译文的质量得分之间的变化量来衡量目标单词对机翻译文质量的影响,最后将变化量转换为质量标签。上述编辑操作方法和计算变化量的方法复杂度低,从而能够提高单词级质量标签的生成效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种单词级质量标签的生成方法流程图;图2为本专利技术实施例提供的一种单词级质量标签的生成装置结构示意图;图3为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例公开了一种单词级质量标签的生成方法,包括:101、基于参考译文对机翻译文进行质量评分,得到第一质量分;随着机器翻译技术的飞速发展,机器翻译质量评价这一研究课题应运而生,对于机翻译文,我们需要衡量其翻译质量。在评估机翻译文的翻译质量时,可以基于参考译文对机翻译文进行质量评分,评分越高,说明机翻译文的翻译质量越高。参考译文是经专业人员对原文进行翻译、校对过的标准译文,为文本形式。机翻译文是经机器(如翻译机)对原文进行翻译的译文。102、对所述机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的所述机翻译文;在基于参考译文对机翻译文进行质量评分,得到第一质量分后,对机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的机翻译文。编辑操作包括但不限于删除、替换、修改。103、基于所述参考译文对所述编辑操作后的所述机翻译文进行质量评分,得到第二质量分;对于编辑操作后的机翻译文,我们需要衡量其翻译质量。在评估机翻译文的翻译质量时,同样可以基于参考译文对机翻译文进行质量评分,评分越高,说明编辑操作后的机翻译文的翻译质量越高。104、获取所述第二质量分相对于所述第一质量分的变化量;在得到第一质量分和第二质量分后,可以按照一定计算规则获取第二质量分相对于第一质量分的变化量。105、基于所述变化量生成所述目标单词的质量标签。由于该变化量可以用来衡量目标单词对机翻译文质量的影响,所以能够基于该变化量生成目标单词的质量标签。可见,本申请实施例提供的单词级质量标签的生成方法,针对机翻译文中的任意一个目标本文档来自技高网...

【技术保护点】
1.一种单词级质量标签的生成方法,其特征在于,包括:/n步骤1:基于参考译文对机翻译文进行质量评分,得到第一质量分;/n步骤2:对所述机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的所述机翻译文;/n步骤3:基于所述参考译文对所述编辑操作后的所述机翻译文进行质量评分,得到第二质量分;/n步骤4:获取所述第二质量分相对于所述第一质量分的变化量;/n步骤5:基于所述变化量生成所述目标单词的质量标签。/n

【技术特征摘要】
1.一种单词级质量标签的生成方法,其特征在于,包括:
步骤1:基于参考译文对机翻译文进行质量评分,得到第一质量分;
步骤2:对所述机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的所述机翻译文;
步骤3:基于所述参考译文对所述编辑操作后的所述机翻译文进行质量评分,得到第二质量分;
步骤4:获取所述第二质量分相对于所述第一质量分的变化量;
步骤5:基于所述变化量生成所述目标单词的质量标签。


2.根据权利要求1所述的单词级质量标签的生成方法,其特征在于,所述基于所述变化量生成所述目标单词的质量标签,之后包括:
对于所述机翻译文中去除所述目标单词后剩余的每个单词,执行步骤2至步骤5,直至生成所述机翻译文中每个单词的质量标签。


3.根据权利要求1所述的单词级质量标签的生成方法,其特征在于,所述基于参考译文对机翻译文进行质量评分,得到第一质量分,包括:
计算机翻译文和参考译文之间的双语评估替换BLEU值,所述BLEU值用于表征所述机翻译文相对应所述参考译文的第一质量分。


4.根据权利要求1所述的单词级质量标签的生成方法,其特征在于,所述对所述机翻译文中的任意一个目标单词进行编辑操作,得到编辑操作后的所述机翻译文,包括:
从所述机翻译文中删除任意一个目标单词,得到删除后的所述机翻译文。


5.根据权利要求1所述的单词级质量标签的生成方法,其特征在于,所述获取所述第二质量分相对于所述第一质量分的变化量,包括:
将所述第二质量分减去所述第一质量分,得到质量分差值,所述质量分差值用于表征所述第二质量分相对于所述第一质量分的...

【专利技术属性】
技术研发人员:毛红保
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1