机器翻译方法和机器翻译系统技术方案

技术编号:9835399 阅读:169 留言:0更新日期:2014-04-02 00:47
本发明专利技术公开了一种机器翻译方法和机器翻译系统。所述机器翻译方法包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;利用语言模型,针对多个候选译文分别计算语言模型得分;分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及选择总得分最高的候选译文作为机器翻译的结果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种机器翻译方法和机器翻译系统。所述机器翻译方法包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;利用语言模型,针对多个候选译文分别计算语言模型得分;分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及选择总得分最高的候选译文作为机器翻译的结果。【专利说明】机器翻译方法和机器翻译系统
本专利技术一般地涉及机器翻译领域。更具体地说,本专利技术涉及用于将源语言的原文翻译为目标语言的译文的机器翻译方法和机器翻译系统。
技术介绍
机器翻译技术是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。由于这一技术由机器完成,所以与人工翻译相比,可以以相对短的时间处理大量的翻译工作。近年来,机器翻译技术得到了长足的发展。机器翻译技术大体上可以分为三类:基于规则的机器翻译技术(Rule-basedmachine translation, RBMT),基于实例的机器翻译技术(Example-based machinetranslation, EMBT)和基于统计的机器翻译技术(Statistical Machine Translation)。基于规则的机器翻译技术一般需要借助于词典、模板和人工整理的规则进行。需要对要被翻译的源语言的原文进行分析,并对原文的意义进行表示,然后再生成等价的目标语言的译文。一个好的基于规则的机器翻译设备,需要有足够多、覆盖面足够广的翻译规贝U,并且有效地解决规则之间的冲突问题。由于规则通常需要人工整理,因此,人工成本高、很难得到数量非常多、覆盖非常全面的翻译规则,并且不同人给出的翻译规则冲突的概率较大。基于实例的机器翻译技术以实例为基础,主要利用预处理过的双语语料和翻译词典进行翻译。在翻译的过程中,首先在翻译实例库搜索与原文片段相匹配的片段,再确定相应的译文片段,重新组合译文片段以得到最终的译文。翻译实例的覆盖范围和存储方式直接影响着这种翻译技术的翻译质量和速度。基于统计的机器翻译技术是基于双语语料库的,其将双语语料库中的翻译知识通过机器学习的方法表示为统计模型并抽取翻译规则,按照翻译规则将需要翻译的原文翻译为目标语言的译文。由于基于统计的机器翻译技术需要的人工处理少、不依赖于具体的实例、不受领域限制、处理速度快,所以相对于其它两种机器翻译技术具有明显的优势。本专利技术主要涉及基于统计的机器翻译技术。如上所述,在基于统计的机器翻译技术中,翻译规则是非常重要的翻译资源。基于统计的机器翻译技术要想取得较好的翻译质量,前提之一就是要有足够多且足够好的双语平行语料,使得计算机等计算设备能够基于双语平行语料自动学习到覆盖面足够广的翻译规则。可见,在基于统计的机器翻译技术中,需要足够多且足够好的双语平行语料以及翻译规则。然而,对于很多语言来说,要获取高质量、大规模的双语平行语料库较为困难。而对于一些语言来说,存在着这种语言与多种语言之间的大量的双语语料。例如,中日的双语平行语料较少,但中英、英日的双语平行语料较多。因此,存在一些机器翻译设备,其借助于中间语言进行源语言到目标语言的翻译。然而,现有技术中存在的问题是机器翻译技术尤其是借助于中间语言的机器翻译技术的翻译质量存在提高的需要。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是提供一种机器翻译设备和机器翻译方法,能够通过对于同一原文通过多种手段给出多个译文候选,并采用合理的机制筛选出最佳的译文来提高翻译质量。同时,本专利技术还从语料、译文候选筛选、规则等多个方面提出了对于借助于中间语言进行翻译的机器翻译技术的改进,以进一步提高翻译质量。为了实现上述目的,根据本专利技术的一个方面,提供一种机器翻译方法,其包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;利用语言模型,针对多个候选译文分别计算语言模型得分;分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及选择总得分最高的候选译文作为机器翻译的结果。根据本专利技术的另一方面,提供一种机器翻译设备,其包括:多个机器翻译设备,用于将源语言的原文翻译为目标语言,以得到多个候选译文;语言模型,用于针对多个候选译文分别计算语言模型得分;设备得分获取装置,被配置为分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;长度得分计算装置,被配置为基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;总得分计算装置,被配置为基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及译文选择装置,被配置为选择总得分最高的候选译文作为机器翻译的结果。另外,根据本专利技术的另一方面,还提供了 一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了 一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。在下面的说明书部分中给出本专利技术的其他方面,其中,详细说明用于充分地公开本专利技术的优选实施例,而不对其施加限定。【专利附图】【附图说明】参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1是示出根据本专利技术的机器翻译方法的流程图;图2是示出扩展语料的获取方法的流程图;图3是示出根据本专利技术的第二翻译设备将源语言的原文翻译为目标语言的译文的流程图;图4是示出扩展规则的获取方法的示意图;图5是示出根据本专利技术的机器翻译系统的示例结构的图;图6是示出根据本专利技术的扩展语料生成装置的示例结构的图;图7是示出根据本专利技术的第二翻译设备的示例结构的图;图8是示出根据本专利技术的扩展规则生成装置的示例结构的图;以及图9是示出个人计算机的示例性结构的框图。【具体实施方式】在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与设备及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来本文档来自技高网
...

【技术保护点】
一种机器翻译方法,包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;利用语言模型,针对多个候选译文分别计算语言模型得分;分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及选择总得分最高的候选译文作为机器翻译的结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:李贤华郑仲光付亦雯孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1