机器翻译效果评测方法、装置、设备及存储介质制造方法及图纸

技术编号:26651034 阅读:64 留言:0更新日期:2020-12-09 00:51
本申请公开了一种机器翻译效果评测方法、装置、设备及存储介质,本申请对于待翻译文本包含的每一子句,以该子句及其之前子句输入机器翻译工具得到翻译结果,作为该子句的机器译文,对每一子句的机器译文进行长度约束,约束后机器译文相比于机器译文删除了末尾的若干译文,进一步将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到待翻译文本的机器译文的翻译约束损失,该翻译约束损失可以衡量机器翻译工具对待翻译文本进行翻译时,对待翻译文本整体的上下文连贯性的表达能力,基于翻译约束损失和参考译文,确定待翻译文本的机器译文评分,该评分考虑了更为细致的句子层级的连贯性,大大提升了机器译文评分的准确性和可靠性。

【技术实现步骤摘要】
机器翻译效果评测方法、装置、设备及存储介质
本申请涉及机器翻译
,更具体的说,是涉及一种机器翻译效果评测方法、装置、设备及存储介质。
技术介绍
随着机器翻译水平的发展,效果上的评价变得尤为重要,研究人员们在不断开发和改进翻译系统的过程中,需要经常去评价翻译结果来反馈从而改善翻译系统。人为的评价是非常耗时、耗力,并且复杂性也很高。这时,设计一种机器翻译效果自动评价方法就显得非常重要,做出一个好的机器翻译评价方案对从业者有着非常重要的意义。例如,判断新的研究技术是否带来好的效果;翻译产品指标会给顾客带来深刻印象;用户该怎么去衡量哪个翻译工具会更好等。在如今这种激烈竞争市场下,研究效果评价可以不断地观察并帮助潜在的用户去了解翻译特性,同时能为机器翻译评价去建立良好基础。
技术实现思路
鉴于上述问题,提出了本申请以便提供一种机器翻译效果评测方法、装置、设备及存储介质,以解决人工评价所存在的耗时、耗力的问题。具体方案如下:一种机器翻译效果评测方法,包括:获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。优选地,在所述获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文之前,该方法还包括:对待翻译文本进行子句划分,得到待翻译文本包含的每一子句。优选地,所述对待翻译文本进行子句划分,包括:以待翻译文本中包含的标点作为子句划分界限,将待翻译文本划分为若干子句;或,遍历待翻译文本,判断句子在未达到设定长度之前是否存在标点,若存在,则将标点之前划分为一个子句,并继续向后遍历待翻译文本,若不存在,则在达到设定长度时将遍历的设定长度的文本划分为一个子句,并继续向后遍历待翻译文本。优选地,所述对每一子句的机器译文进行长度约束,包括:确定每一子句的长度约束量,所述长度约束量用于指示在进行长度约束时,机器译文末尾所需删除的译文长度;基于每一子句的长度约束量,对每一子句的机器译文进行长度约束。优选地,所述确定每一子句的长度约束量,包括:按照每一子句的划分方式,确定与所述划分方式对应的长度约束量,以得到每一子句的长度约束量。优选地,若子句是按照标点划分得到,则对应的长度约束量为第一设定长度;若子句是按照遍历文本达到设定长度后划分得到,则对应的长度约束量为第二设定长度,所述第二设定长度大于所述第一设定长度。优选地,所述基于每一子句的长度约束量,对每一子句的机器译文进行长度约束,包括:基于每一子句的长度约束量,删除每一子句的机器译文中末尾若干长度的译文,所述若干长度的译文为所述子句中末尾所述长度约束量个分词的翻译结果;或,基于每一子句的长度约束量,删除每一子句的机器译文中末尾所述长度约束量个分词。优选地,所述将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失,包括:判断每一子句的约束后机器译文,是否存在于下一相邻子句的机器译文中;若存在,则确定所述子句约束成功,否则,确定所述子句约束失败;基于所述待翻译文本中各子句的约束成功和失败情况,确定所述待翻译文本的机器译文的翻译约束损失。优选地,所述基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分,包括:基于所述翻译约束损失及所述参考译文包含的子句数量,确定所述待翻译文本的机器译文的翻译约束损失系数;将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率;利用所述翻译约束损失系数,对所述匹配准确率进行惩罚,得到机器译文评分。优选地,所述将所述待翻译文本的机器译文与所述参考译文进行匹配,确定匹配准确率,包括:确定所述待翻译文本的机器译文与所述参考译文的n元文法匹配准确率。一种机器翻译效果评测装置,包括:译文获取单元,用于获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;约束处理单元,用于对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;翻译约束损失确定单元,用于将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;评分单元,用于基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。一种机器翻译效果评测设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上所述的机器翻译效果评测方法的各个步骤。一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的机器翻译效果评测方法的各个步骤。借由上述技术方案,本申请对于待翻译文本包含的每一子句,以该子句及其之前子句输入机器翻译工具得到翻译结果,作为该子句的机器译文,进一步的,考虑到子句末尾部分分词在机器翻译时无法参考到后续子句的内容,导致翻译结果可能不准确,为此,本申请对每一子句的机器译文进行长度约束,约束后机器译文相比于机器译文删除了末尾的若干译文,也即,将末尾翻译结果可能不准确的部分机器译文进行删除,而当前子句的下一相邻子句的机器译文在翻译时,针对当前子句末尾部分分词翻译时能够参考到后续子句的内容,使得翻译结果更加准确,大大提升了上下文关系,在此基础上,将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到待翻译文本的机器译文的翻译约束损失,该翻译约束损失可以衡量机器翻译工具对待翻译文本进行翻译时,对待翻译文本整体的上下文连贯性的表达能力,在此基础上,基于翻译约束损失和参考译文,确定待翻译文本的机器译文评分,该机器译文评分考虑了更为细致的句子层级的连贯性,对于多翻译和漏翻译都能进行适当惩罚,大大提升了机器译文评分的准确性和可靠性。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本申请实施例提供的机器翻译效果评测方法的一流程示意图;图2示例了待翻译文本的子句划分方式,及参考译文的示意图;图3为本申请实施例提供的一种机器翻译效果评测装置结构示意图;图4为本申请实施例提供的机器翻译本文档来自技高网...

【技术保护点】
1.一种机器翻译效果评测方法,其特征在于,包括:/n获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;/n对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;/n将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;/n基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。/n

【技术特征摘要】
1.一种机器翻译效果评测方法,其特征在于,包括:
获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文,其中,每一子句的机器译文为机器翻译工具对所述子句及其之前子句的翻译结果;
对每一子句的机器译文进行长度约束,得到约束后机器译文,所述约束后机器译文相比于所述机器译文删除了末尾的若干译文;
将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到所述待翻译文本的机器译文的翻译约束损失;
基于所述翻译约束损失及所述参考译文,确定所述待翻译文本的机器译文评分。


2.根据权利要求1所述的方法,其特征在于,在所述获取待翻译文本的参考译文,及待翻译文本包含的每一子句的机器译文之前,该方法还包括:
对待翻译文本进行子句划分,得到待翻译文本包含的每一子句。


3.根据权利要求2所述的方法,其特征在于,所述对待翻译文本进行子句划分,包括:
以待翻译文本中包含的标点作为子句划分界限,将待翻译文本划分为若干子句;
或,
遍历待翻译文本,判断句子在未达到设定长度之前是否存在标点,若存在,则将标点之前划分为一个子句,并继续向后遍历待翻译文本,若不存在,则在达到设定长度时将遍历的设定长度的文本划分为一个子句,并继续向后遍历待翻译文本。


4.根据权利要求1所述的方法,其特征在于,所述对每一子句的机器译文进行长度约束,包括:
确定每一子句的长度约束量,所述长度约束量用于指示在进行长度约束时,机器译文末尾所需删除的译文长度;
基于每一子句的长度约束量,对每一子句的机器译文进行长度约束。


5.根据权利要求4所述的方法,其特征在于,所述确定每一子句的长度约束量,包括:
按照每一子句的划分方式,确定与所述划分方式对应的长度约束量,以得到每一子句的长度约束量。


6.根据权利要求5所述的方法,其特征在于,
若子句是按照标点划分得到,则对应的长度约束量为第一设定长度;
若子句是按照遍历文本达到设定长度后划分得到,则对应的长度约束量为第二设定长度,所述第二设定长度大于所述第一设定长度。


7.根据权利要求4所述的方法,其特征在于,所述基于每一子句的长度约束量,对每一子句的机器译文进行长度约束,包括:
基于每一子句的长度约束量,删除每一子句的机器译文中末尾若干长度的译文,所述若干长度的译文为所述子句中末尾所述长度约束量个分词的翻译...

【专利技术属性】
技术研发人员:罗佩
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1