【技术实现步骤摘要】
用于中文姓名匹配的方法和系统
本专利技术涉及姓名匹配,更具体地说,涉及原生脚本和跨脚本中文姓名匹配。
技术介绍
中文字符(在中文中称为汉字,在日语中称为日本汉字,在朝鲜语中称为朝鲜汉字)用于在多种语言中表示姓名,每种语言可以针对相同的基本姓名使用不同的字符。即使在中文本身中,也存在区域变体。例如,在中国大陆和新加坡,使用简体字符集,而台湾和香港使用繁体字符。在广泛采用统一码(Unicode)之前,针对中文字符使用不同的编码系统,并且一个编码系统支持的字符范围很可能不同于另一个编码系统。将来自一个区域的电子文本呈现为可由来自另一个区域的人们读取的版本时,不仅需要转换编码系统,而且还需要更改区域特定的字符。例如,中华人民共和国建国之父的姓名在中国大陆表示为‘丨*泽东”,在台湾表示为才數翻”,在日本表示为才嬌翻”。统一码联盟保留大范围的代码点,以便覆盖几乎所有使用中的中文字符。这具有许多优点,但也产生一些新的挑战。一个此类挑战是使用什么区域变体不再明显,因为只要具有适当的字体支持,区域变体便可以以相同的文本显示。上面提及的变体姓名才泽东”、才數翻”、才嬌翻”以及 ...
【技术保护点】
一种用于中文姓名匹配的计算机实现的方法,包括:由处理器接收中文姓名;由所述处理器将所接收的中文姓名用罗马字母拼写成汉语拼音表示;由所述处理器将所述中文姓名的所述汉语拼音表示与一组用罗马字母拼写的中文姓名相匹配,其中所述用罗马字母拼写的中文姓名源自多个不同的中文字符姓名;响应于在所述汉语拼音表示与用罗马字母拼写的中文姓名之间找到潜在匹配,由所述处理器检索所述用罗马字母拼写的中文姓名的原始中文脚本;以及由所述处理器在所接收的中文姓名与所述用罗马字母拼写的中文姓名的所述原始中文脚本之间应用原生脚本比较作为过滤器,以便减少在将所述中文姓名的所述汉语拼音表示与所述一组用罗马字母拼写的 ...
【技术特征摘要】
2013.02.26 US 13/777,6081.一种用于中文姓名匹配的计算机实现的方法,包括: 由处理器接收中文姓名; 由所述处理器将所接收的中文姓名用罗马字母拼写成汉语拼音表示; 由所述处理器将所述中文姓名的所述汉语拼音表示与一组用罗马字母拼写的中文姓名相匹配,其中所述用罗马字母拼写的中文姓名源自多个不同的中文字符姓名; 响应于在所述汉语拼音表示与用罗马字母拼写的中文姓名之间找到潜在匹配,由所述处理器检索所述用罗马字母拼写的中文姓名的原始中文脚本;以及 由所述处理器在所接收的中文姓名与所述用罗马字母拼写的中文姓名的所述原始中文脚本之间应用原生脚本比较作为过滤器,以便减少在将所述中文姓名的所述汉语拼音表示与所述一组用罗马字母拼写的中文姓名相匹配中生成的错误肯定。2.根据权利要求1的方法,其中所述原生脚本比较包括以下项中的一个或多个:逐字符比较、字符变体查找以及有关姓名组成未对齐的考虑。3.根据权利要求1的方法,其中所述原生脚本比较产生匹配得分,其中将所述匹配得分用作过滤器以便减少在将所述中文姓名的所述汉语拼音表示与所述一组用罗马字母拼写的中文姓名相匹配中生成的错误肯定。4.根据权利要求1的方法,其中用罗马字母拼写所述中文姓名包括: 将所接收的中文姓名解析成姓氏和名字; 将所标识的姓氏和所标识的名字音译成用罗马字母拼写的表示;以及将所述姓氏和所述名字的所述用罗马字母拼写的表示规范化为与标准的用罗马字母拼写的中文取名惯例一致的表示。5.根据权利要求1的方法,其中仅当所接收的中文姓名和所述用罗马字母拼写的中文姓名的所述原始中文脚本是相同脚本时才执行应用所述原生脚本比较。6.根据权利要求1的方法,其中在中文变体表中执行字符变体查找,所述中文变体表包含多个字符对和用于每对字符的指示该对字符的密切相关程度的得分。7.根据权利要求1的方法,还包括: 基于有关姓名组成未对齐的考虑而调整所述匹配得分。8.一种用于中文姓名匹配的计算机系统,所述系统包括...
【专利技术属性】
技术研发人员:黄书东,N·C·金,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。