抽取姓名词典和翻译规则表的方法和设备技术

技术编号:12398312 阅读:82 留言:0更新日期:2015-11-26 03:59
本发明专利技术公开了抽取姓名词典和翻译规则表的方法和设备。根据本发明专利技术的抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法包括:收集英日姓名语料库,其包括日文姓名及对应的英文姓名;针对所收集的日文姓名和英文姓名,划分日文姓名和英文姓名;利用日文汉字发音表,将日文姓名中的日文汉字与英文姓名中的英文音节对齐,该对齐结果作为切分结果,所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串,所述英文字符串包括一个或多个英文音节;根据上述对齐结果,抽取所述姓名词典和翻译规则表。

【技术实现步骤摘要】

本专利技术一般地涉及自然语言处理领域。具体而言,本专利技术涉及一种抽取用于在日 文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法和设备、以及利用所抽取 出的姓名词典和翻译规则表来在日文姓名与英文姓名之间进行翻译的方法和设备。
技术介绍
近年来,自然语言处理,尤其是机器翻译相关的技术得到了迅猛的发展。但是,仍 然存在一些难以解决的技术问题。例如,日文姓名中存在多音字,在基于字对日文姓名进行 翻译以得到对应的英文姓名的时候,存在一对多的不确定性。而且,一些日文姓名的发音与 日文姓名中的汉字的含义有关,相应的发音不常见,基于日文姓名中的汉字的通常的发音 进行翻译,容易获得错误的结果。所以,难以借助于普通的翻译词典和翻译规则表,对日文 姓名和英文姓名进行互译。 显然,如果在日文姓名和英文姓名之间进行翻译的时候,利用好的姓名词典和翻 译规则表,则翻译的准确度高,翻译质量好。然而,依靠人工来进行姓名词典和翻译规则表 的制作是费力、耗时、低效的。依靠现有的词典抽取技术和翻译规则表抽取技术抽取的结果 又不能适应日文姓名的特殊性。综上所述,难以自动地、准确地获得高质量的针对日文姓名 和英文姓名的翻译的姓名词典和翻译规则表。 因此,期望一种能够自动地、准确地抽取用于在日文姓名与英文姓名之间进行翻 译的高质量的姓名词典和翻译规则表的方法和设备。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本 理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的 关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。 本专利技术的目的是针对现有技术的上述问题,提出了一种能够自动地、准确地抽取 用于在日文姓名与英文姓名之间进行翻译的高质量的姓名词典和翻译规则表的方法和设 备。 为了实现上述目的,根据本专利技术的一个方面,提供了 一种抽取用于在日文姓名与 英文姓名之间进行翻译的姓名词典和翻译规则表的方法,包括:收集英日姓名语料库,其包 括日文姓名及对应的英文姓名;针对所收集的日文姓名和英文姓名,划分日文姓名和英文 姓名;利用日文汉字发音表,将日文姓名中的日文汉字与英文姓名中的英文音节对齐,该对 齐结果作为切分结果,所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文 字符串,所述英文字符串包括一个或多个英文音节;以及根据上述对齐结果,抽取所述姓名 词典和翻译规则表。 相应地,根据本专利技术的再一方面,提供了一种利用上述方法抽取出的姓名词典和 翻译规则表来在日文姓名与英文姓名之间进行翻译的方法,包括:在所述姓名词典中搜索 与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名;以及如果搜索到唯一的匹配结 果,则将该匹配结果作为翻译结果;如果搜索到多种匹配结果,则根据所述姓名词典中的出 现频次,计算每种匹配结果的得分,选择得分最高的匹配结果作为翻译结果,或者按得分从 高到低的顺序排列所述匹配结果。 相应地,根据本专利技术的再一方面,提供了一种利用上述方法抽取出的姓名词典和 翻译规则表来在日文姓名与英文姓名之间进行翻译的方法,包括:基于所述翻译规则表,使 用CKY算法,进行所述翻译,获得多个候选结果;根据每种候选结果中的姓和名在所述姓名 词典中存在的多少,计算每种候选结果的得分;以及选择得分最高的候选结果作为翻译结 果,或者按得分从高到低的顺序排列所述候选结果。 根据本专利技术的另一个方面,提供了一种抽取用于在日文姓名与英文姓名之间进行 翻译的姓名词典和翻译规则表的设备,包括:收集装置,被配置为:收集英日姓名语料库, 其包括日文姓名及对应的英文姓名;划分装置,被配置为:划分所收集的日文姓名和英文 姓名;对齐装置,被配置为:利用日文汉字发音表,将日文姓名中的日文汉字与英文姓名中 的英文音节对齐,该对齐结果作为切分结果,所述日文汉字发音表中记载了日文汉字及其 对应的一种或多种英文字符串,所述英文字符串包括一个或多个英文音节;以及抽取装置, 被配置为:根据所述对齐装置的对齐结果,抽取所述姓名词典和翻译规则表。 相应地,根据本专利技术的再一方面,提供了一种利用上述设备抽取出的姓名词典和 翻译规则表来在日文姓名与英文姓名之间进行翻译的装置,包括:第一搜索单元,被配置 为:在所述姓名词典中搜索与待翻译的姓名中的日语汉字/英文字符串匹配的姓和名;以 及结果确定单元,被配置为:如果第一搜索单元搜索到唯一的匹配结果,则将该匹配结果作 为翻译结果;如果第一搜索单元搜索到多种匹配结果,则根据所述姓名词典中的出现频次, 计算每种匹配结果的得分,选择得分最高的匹配结果作为翻译结果,或者按得分从高到低 的顺序排列所述匹配结果。 相应地,根据本专利技术的再一方面,提供了一种利用上述设备抽取出的姓名词典和 翻译规则表来在日文姓名与英文姓名之间进行翻译的装置,包括:候选获得单元,被配置 为:基于所述翻译规则表,使用CKY算法,进行所述翻译,获得多个候选结果;得分计算单 元,被配置为:根据每种候选结果中的姓和名在所述姓名词典中存在的多少,计算每种候选 结果的得分;以及结果确定单元,被配置为:选择得分最高的候选结果作为翻译结果,或者 按得分从高到低的顺序排列所述候选结果。 另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可 读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处 理设备执行根据本专利技术的上述方法。 此外,根据本专利技术的再一方面,还提供了 一种程序产品。所述程序产品包括机器可 执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行 根据本专利技术的上述方法。【附图说明】 参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其 它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。附图中: 图1示出了根据本专利技术的实施例的抽取姓名词典和翻译规则表的方法的流程图; 图2示出了根据本专利技术的实施例的抽取翻译规则表(步骤S4的子步骤)的方法 的流程图; 图3示出了根据本专利技术的实施例的利用所抽取的姓名词典和翻译规则表进行翻 译的方法的流程图; 图4示出了根据本专利技术的实施例的利用所抽取的姓名词典和翻译规则表进行翻 译的方法的流程图; 图5示出了根据本专利技术实施例的抽取用于在日文姓名与英文姓名之间进行翻译 的姓名词典和翻译规则表的抽取设备的结构方框图; 图6示出了根据本专利技术实施例的利用上述设备抽取出的姓名词典和翻译规则表 来在日文姓名与英文姓名之间进行翻译的装置的结构方框图; 图7示出了根据本专利技术实施例的利用上述设备抽取出的姓名词典和翻译规则表 来在日文姓名与英文姓名之间进行翻译的装置的结构方框图;以及 图8示出了可用于实施根据本专利技术实施例的方法和设备的计算机的示意性框图。【具体实施方式】 在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起 见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际 实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的本文档来自技高网...

【技术保护点】
一种抽取用于在日文姓名与英文姓名之间进行翻译的姓名词典和翻译规则表的方法,包括:收集英日姓名语料库,其包括日文姓名及对应的英文姓名;针对所收集的日文姓名和英文姓名,划分日文姓名和英文姓名;利用日文汉字发音表,将日文姓名中的日文汉字与英文姓名中的英文音节对齐,该对齐结果作为切分结果,所述日文汉字发音表中记载了日文汉字及其对应的一种或多种英文字符串,所述英文字符串包括一个或多个英文音节;以及根据上述对齐结果,抽取所述姓名词典和翻译规则表。

【技术特征摘要】

【专利技术属性】
技术研发人员:李贤华张姝孟遥孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1