训练基于短语的翻译模型的方法、机器翻译方法及其装置制造方法及图纸

技术编号:4276654 阅读:224 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了训练基于短语的翻译模型的方法、训练基于短语的翻译模型的装置、基于短语的机器翻译方法和基于短语的机器翻译装置。根据本发明专利技术的一个方面,提供了一种训练基于短语的翻译模型的方法,包括以下步骤:识别双语语料库中的例句对中的命名实体,上述双语语料库包括多对相对应的源语言和目标语言的例句;将上述例句对中的识别出的上述命名实体替换为上述命名实体的类别;从替换后的上述例句对中抽取短语对;以及将抽取出的上述短语对加入上述基于短语的翻译模型。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,具体地涉及统计机器翻译技术,更具体地涉及通过使用命名实体知识来改进基于短语的统计机器翻译的质量的技术。
技术介绍
机器翻译技术主要分为基于规则的机器翻译和基于语料库的机器翻译。 在基于语料库的机器翻译中,主要的翻译资源来源于语料库。基于语料库的机器 翻译又分为基于实例的机器翻译和基于统计的机器翻译。对于基于统计的机器翻译,基于 短语的统计机器翻译方法是目前最主要的自动翻译方法之一。 基于短语的统计机器翻译方法的基本翻译单元是短语,其所应用的翻译知识包括 翻译模型和语言模型。翻译模型利用双语语料库中的平行双语语料获得,由平行双语语料 中互为翻译的双语短语对及其互相翻译的概率组成。在此,短语的定义是由一个或多个连 续的词组成的片段。语言模型利用目标语言的单语语料库获得,其用从目标语言的单语语 料库中统计出来的概率来描述生成译文的流利程度。翻译的性能随着语料库的规模的增加 而提高。 常规的基于短语的统计机器翻译的过程主要包括首先,对于待翻译的句子,使用 匹配方法搜索翻译模型,查找与该句子对应的、所有匹配的双语短语对;然后,基于这些双 语短语对以及语言模型,采用统计方法选出该句子的目标语言译文片段的组合中得分最高 的那一个,作为待翻译的句子的正确目标语言译文。 图1示出了实现上述过程的常规的基于短语的统计机器翻译系统的方框图。如图 1所示,该系统100主要包括输入单元101、查找单元102、译文生成单元103、输出单元104、 翻译模型30以及语言模型40等。 在系统100中,输入单元101是该系统100与外部的接口,该系统IOO通过输入单 元101从外部获得待翻译的句子。 查找单元102进行短语的匹配。具体地,查找单元102对通过输入单元101获得 的待翻译的句子,使用匹配算法在通过使用双语语料库10统计分析获得的翻译模型30中 查找与该输入句子对应的、匹配的双语短语对。 译文生成单元103生成该输入句子的正确目标语言译文。具体地,译文生成单元 103基于查找单元102所查找的双语短语对以及通过使用单语语料库20统计分析获得的语 言模型40,利用统计方法选出该输入句子的、可能的目标语言译文中得分最高的那一个,作 为该输入句子的正确目标语言译文。 由译文生成单元103生成的该目标语言译文通过输出单元104输出。 图2示出了采用图1的上述系统进行的机器翻译示例。在该示例中,对于输入句 子"美国总统布什4月将访问日本",图1的系统100的查找单元102利用短语的匹配技 术,在翻译模型30中找到与该输入句子对应的五个匹配的双语短语对(Pl)美国总统〈= >The US president ; (P2)布什〈=〉Bush ; (P3)4月〈=>in April ; (P4)将访问〈=>willvisit ; (P5)日本〈=〉J即an。并且,根据这五个双语短语对,系统100的译文生成单元103 使用语言模型40得到最终的译文"The US president will visit J即an inApril"。 从上面可以看出,在常规的基于短语的统计机器翻译系统中,对于待翻译的输入 句子,只有双语短语对中的源语言短语和输入句子中的短语精确匹配时,该短语对才可以 用于翻译。对于输入句子中的那些包含命名实体的短语,由于命名实体在语料库中出现的 次数较少,通常很难直接匹配上,因此需要切分成多个比较短的短语才能匹配。如图2所示 的示例中,输入句子中的"美国总统布什"由于没有作为一个整体在语料库中出现,需要进 一步切分为"美国总统"和"布什"后才能用短语对匹配。此外,输入句子中的"4月将访问 日本"由于没有作为一个整体在语料库中出现,需要进一步切分为"4月"、"将访问"和"日 本"后才能用短语对匹配。 输入句子切分的短语越短,则由于缺少上下文,短语的歧义越多;同时,由于目标 短语的数量越多,其排列出正确的译文的难度越大。此外,一些命名实体,例如人名、地名、 组织机构名称、商品名称、时间、金钱、数字和其它专有名词,因为其在语料库中出现的次数 很少而很难用统计的方法翻译。
技术实现思路
本专利技术正是鉴于上述现有技术中的问题而提出的,其目的在于提供训练基于短语 的翻译模型的方法、训练基于短语的翻译模型的装置、基于短语的机器翻译方法和基于短 语的机器翻译装置,以便能够通过使用命名实体知识,将命名实体的翻译从统计机器翻译 中分离出来,来改善统计机器翻译的质量。 本专利技术通过将命名实体替换为命名实体的类型,可以改善利用统计方法获得的词 对齐质量,从而抽取出质量更高的双语短语对。因为带命名实体的类别的短语对能够匹配 更长的短语,所以更容易排列出正确的译文。同时,命名实体的翻译可以使用额外的知识, 使得对命名实体的翻译更加准确。最终,可以生成更好的译文。 根据本专利技术的一个方面,提供了一种训练基于短语的翻译模型的方法,包括以下 步骤识别双语语料库中的例句对中的命名实体,上述双语语料库包括多对相对应的源语 言和目标语言的例句;将上述例句对中的识别出的上述命名实体替换为上述命名实体的类 别;从替换后的上述例句对中抽取短语对;以及将抽取出的上述短语对加入上述基于短语 的翻译模型。 根据本专利技术的另一个方面,提供了一种训练基于短语的翻译模型的装置,包括识 别单元,其识别双语语料库中的例句对中的命名实体,上述双语语料库包括多对相对应的源语言和目标语言的例句;替换单元,其将上述例句对中的上述识别单元识别出的上述命 名实体替换为上述命名实体的类别;抽取单元,其从上述替换单元替换后的上述例句对中 抽取短语对;以及添加单元,其将上述抽取单元抽取出的上述短语对加入上述基于短语的 翻译模型。 根据本专利技术的另一个方面,提供了一种基于短语的机器翻译方法,包括以下步骤 识别待翻译的源语言的句子中的命名实体;将上述待翻译的源语言的句子中的识别出的上 述命名实体替换为上述命名实体的类别;在基于短语的翻译模型中,查找与替换后的上述 待翻译的源语言的句子相匹配的多个短语对;以及利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文。 根据本专利技术的另一个方面,提供了一种基于短语的机器翻译装置,包括第一识别 单元,其识别待翻译的源语言的句子中的命名实体;第一替换单元,其将上述待翻译的源语 言的句子中的上述第一识别单元识别出的上述命名实体替换为上述命名实体的类别;查找 单元,其在基于短语的翻译模型中,查找与上述第一替换单元替换后的上述待翻译的源语 言的句子相匹配的多个短语对;以及译文生成单元,其利用上述多个短语对和上述命名实 体的译文生成上述待翻译的源语言的句子的译文。附图说明 相信通过以下结合附图对本专利技术具体实施方式的说明,能够使人们更好地了解本 专利技术上述的特点、优点和目的。图1示出了常规的基于短语的统计机器翻译系统的方框图; 图2示出了采用图1的统计机器翻译系统进行机器翻译的一个实例; 图3是根据本专利技术的一个实施例的训练基于短语的翻译模型的方法的流程图; 图4示出了抽取短语对的详细过程的一个实例; 图5是根据本专利技术的另一个实施例的训练基于短语的翻译模型的装置的方框图; 图6是根据本专利技术的另一个本文档来自技高网
...

【技术保护点】
一种训练基于短语的翻译模型的方法,包括以下步骤:识别双语语料库中的例句对中的命名实体,上述双语语料库包括多对相对应的源语言和目标语言的例句;将上述例句对中的识别出的上述命名实体替换为上述命名实体的类别;从替换后的上述例句对中抽取短语对;以及将抽取出的上述短语对加入上述基于短语的翻译模型。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡晓光吴华王海峰
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1