用于中文姓名音译的方法和系统技术方案

技术编号:10374409 阅读:126 留言:0更新日期:2014-08-28 16:51
本发明专利技术涉及一种用于中文姓名音译的方法和系统。描述了中文姓名音译。接收包括姓氏和随后的名字的中文姓名。将所接收的中文姓名解析成姓氏和名字,方式为:通过参考已知中文姓氏列表,标识所接收的中文姓名中的任何双字符姓氏;通过参考所述已知中文姓氏列表,标识所接收的中文姓名中的任何单字符姓氏;以及在所接收的中文姓名中的剩余字符中,将任何不属于双字符或单字符姓氏的字符标识为名字。将所标识的姓氏和所标识的名字音译成汉语拼音表示。将所述姓氏和所述名字的所述汉语拼音表示规范化为预定表示。

【技术实现步骤摘要】
用于中文姓名音译的方法和系统
本专利技术涉及字符的音译,更具体地说,涉及将中文字符的姓名音译成用罗马字母拼写的姓名。
技术介绍
随着全球旅游变得日益频繁,将姓名从一种语言翻译或音译成另一种语言的需要变得越来越普遍,并且标准化姓名音译过程变得越来越重要。例如,中国政府和台湾政府最近发布了用罗马字母拼写中文人名的官方指南。这两组指南几乎相同并且可以总结如下:1.使用汉语拼音。2.观察原始的姓氏(SN)名字(GN)顺序,在SN和GN之间添加空格。3.请勿在双字符名字或双字符姓氏之间添加空格,但是当第二个字符的发音以元音开始时,插入撇号以避免歧义。4.在罕见情况下,其中姓氏字段具有两个姓氏(例如,如在台湾和香港地区的一些已婚女人的姓名中看到的那样),在两个姓氏之间插入连字符。理论上,在使用以罗马字母拼写的中文姓名的任何位置(例如在国际出版物、信息处理、国际旅游证件等中),都应该遵循这些指南。但是,不存在根据标准惯例音译人名的自动系统。大多数翻译系统 ,例如Google Translate (可从加利福尼亚州山景城的GoogleInc.获得)和Systran (可从法国巴黎的Systran S.A.获得),偶尔依靠中文字符翻译而不是姓名音译。此类系统通常包含数亿个文本文档或数据库(它们存储翻译人员已经翻译的文本模式),并且寻找模式以便帮助确定最佳翻译。通过在文档中检测翻译人员已经翻译的模式,这些系统尝试提供统计机器翻译而不是音译。这些类型的系统存在两个严重的问题。第一个问题是这些系统并非始终正确地识别姓名。例如,在中文姓名“欧阳进修”中,“欧阳”是双字符姓氏,“进修”是双字符名字。但是,“进修”在中文中也是一个有意义的词组,其意味着“加强某人的教育”。Google Translate将姓名“欧阳”正确地音译成“Ouyang”,但将“进修”翻译为“education”而不是“Jinxiu”(这将是正确的音译形式)。另一方面,Systran将“欧阳进修”识别为姓名并且正确地音译。但是,当使用单字符姓氏“欧”替换双字符姓氏“欧阳”时,Systran将姓名“欧进修”翻译为“European further education (欧洲加强教育)”,因为“欧”在中文中也意味着“欧洲”。第二个问题是如果使用数据库存储已知姓名和词组,则有时可能无法区分原始姓名所指代的个人。例如,李连杰是著名的中国功夫明星,西方世界将其称为Jet Li。GoogleTranslate始终将“李连杰”呈现为“Jet Li”,无论该姓名是否指功夫明星。音译该姓名将产生“Li Lianjie”,这实际上可以属于相当多的不如Jet Li有名的人。另一个有趣的实例,张三在中文中通常用于指“路人甲”,但也可以是真实姓名“Zhang San^0Google Translate从未提供音译,而是始终将其翻译为“Joe Smith”。尽管International Components for Unicode (ICU)开发了汉语-拉丁语模块,可以插入该模块以进行中文音译,但它并非专门用于人名音译。如果给出一串中文字符,则I⑶的汉语-拉丁语模块简单地在两个相邻字符之间插入空格,并且将每个字符音译成拼音表示。例如,将“?牵f ft”变成“Jiang Ze Min”而不是“Jiang Zemin,,。在需要将姓名解析成姓氏(SN)字段和名字(GN)字段的情况下,这可以导致问题。在用罗马字母拼写的形式中,可以将姓名“Jiang Ze Min”错误地解析成“GN=Jiang Ze”和“SN=Min”。解析用罗马字母拼写的中文姓名可能易于出错,即使SN GN顺序不是问题。最常见的中文姓氏是单字符。但是,存在相当多的双字符姓氏。一些人还具有两个姓氏(两个单字符姓氏,或者甚至两个双字符姓氏)。例如,单字符“欧”是姓氏,但它也是双字符姓氏“欧阳”的第一个字符。I⑶将姓名“欧阳天”音译成“0u Yang Tian”,但根据音译后的形式,并不清楚SN是“0U”还是“0U YANG”。因此,需要用于将中文姓名音译成用罗马字母拼写的形式的改进的自动化技术。
技术实现思路
根据本专利技术的各实施例,提供用于中文姓名音译的方法和装置,包括计算机程序产品。接收包括姓氏和随后的名字的中文姓名。将所接收的中文姓名解析成姓氏和名字,方式为:通过参考已知中文姓氏列表,标识所接收的中文姓名中的任何双字符姓氏;通过参考所述已知中文姓氏列表,标识所接收的中文姓名中的任何单字符姓氏;以及在所接收的中文姓名中的剩余字符中,将任何不属于双字符或单字符姓氏的字符标识为名字。将所标识的姓氏和所标识的名字音译成汉语拼音表示。将所述姓氏和所述名字的所述汉语拼音表示规范化为预定表示。在以下附图和 描述中提供了本专利技术的一个或多个实施例的细节。从说明书和附图以及权利要求,本专利技术的其它特性和优点将显而易见。【附图说明】图1示出根据一个实施例的其中可以实现中文人名音译的计算机系统(10);图2示出根据一个实施例的用于中文人名音译的过程(200);图3是根据一个实施例的图2的姓名模式解析步骤204的更详细视图;图4是根据一个实施例的图2的音译步骤206的更详细视图。不同附图中的相同参考符号指示相同元素。【具体实施方式】在此描述的各实施例涉及使用具有标准化音译模块的自动中文音译器进行中文音译,该音译器遵守中国官方指南并且准确地将中文姓名音译成用罗马字母拼写的形式,其中正确地解析和表示SN和GN。更具体地说,涉及帮助姓名匹配系统并且防止在音译过程中丢失正确的SN和GN标识,所述自动中文音译器执行三个基本处理步骤:(I)姓名解析,(2)姓名音译,以及(3)姓名规范化。在音译姓名之前,中文音译器将原始的中文姓名解析成SN和GN字段。然后它利用ICU汉语-拉丁语模块音译SN和GN字段。因为ICU汉语-拉丁语模块未针对音译中文姓名进行优化,所以最后步骤将ICU输出规范化为表示,这些表示更好地反映用罗马字母拼写的实际中文取名惯例。所属
的技术人员知道,本专利技术的各个方面可以实现为系统、方法或计算机程序产品。因此,本专利技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,本专利技术的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于一电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系本文档来自技高网
...

【技术保护点】
一种用于中文姓名音译的计算机实现的方法,包括:‑由处理器接收包括姓氏和随后的名字的中文姓名;‑由所述处理器将所接收的中文姓名解析成姓氏和名字,方式为:通过参考已知中文姓氏列表,标识所接收的中文姓名中的任何双字符姓氏,通过参考所述已知中文姓氏列表,标识所接收的中文姓名中的任何单字符姓氏,以及在所接收的中文姓名中的剩余字符中,将任何不属于双字符或单字符姓氏的字符标识为名字,‑由所述处理器将所标识的姓氏和所标识的名字音译成汉语拼音表示;以及‑由所述处理器将所述姓氏和所述名字的所述汉语拼音表示规范化为预定表示。

【技术特征摘要】
2013.02.26 US 13/776,7971.一种用于中文姓名音译的计算机实现的方法,包括: -由处理器接收包括姓氏和随后的名字的中文姓名; -由所述处理器将所接收的中文姓名解析成姓氏和名字,方式为: 通过参考已知中文姓氏列表,标识所接收的中文姓名中的任何双字符姓氏, 通过参考所述已知中文姓氏列表,标识所接收的中文姓名中的任何单字符姓氏,以及在所接收的中文姓名中的剩余字符中,将任何不属于双字符或单字符姓氏的字符标识为名字, -由所述处理器将所标识的姓氏和所标识的名字音译成汉语拼音表示;以及 -由所述处理器将所述姓氏和所述名字的所述汉语拼音表示规范化为预定表示。2.根据权利要求1的方法,其中使用InternationalComponents for Unicode汉语-拉丁语模块执行所述姓氏和名字的音译。3.根据权利要求1的方法,其中所述姓名解析使用常见姓氏集合,以在所接收的中文姓名中标识可能的姓氏和名字模式。4.根据权利要求1的方法,其中仅将所述姓名解析应用于长度为六个字符或更短的中文姓名。5.根据权利要求1的方法,其中音译进一步包括: 判定姓氏或名字中的字符是否是上下文敏感的;以及 响应于判定所述字符是上下文敏感的,将例外规则应用于所述字符。6.根据权利要求1的方法,其中规范化包括删除在解析和音译步骤中添加的任何变音符号。7.根据权利要求1的方法,其中按照从左到右的顺序完成标识双字符和单字符姓氏。8.根据权利要求1的方法,其中通过从中接收所述中文姓名的外部应用来确定所述预定表不。9.一种用...

【专利技术属性】
技术研发人员:黄书东N·C·金
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1