标识相关姓名的系统及方法技术方案

技术编号:2847551 阅读:275 留言:0更新日期:2012-04-11 18:40
一种标识相关姓名的系统(100),包括持久地存储姓名集合的数据存储设备(132)。数据存储设备(132)中至少一个姓名由该姓名的母语拼写形式和该母语拼写形式的音译形式二者表示。该系统(100)包括构造并布置为接收至少输入姓名的输入界面(110)。音译模块(120)被构造并布置为产生输入姓名的至少一个音译形式。标识符被构造并布置为从数据存储设备(132)中标识出与输入姓名的音译形式相关的至少一个姓名。输出界面(110)呈现从数据存储设备(132)中标识出的至少一个姓名作为与输入姓名相关的数据。该系统(100)可以基于各种标准从候选的可能音译方案中动态选择要应用到输入姓名的音译方案(122),所述各种标准包括:(1)输入姓名的特性,例如,输入姓名内在的地理或语言学指示(124),(2)输入姓名被匹配的姓名池的特性(126),和/或(3)在标识从其接收到输入姓名的一方的地理或语言学特性时可能有用的输入姓名或姓名池的外部数据(128)。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及标识相关名称。
技术介绍
数据库是以下述方式组织的信息集合,在该方式中,计算机程序可以快速容易地选择期望的数据分段。数据库一般包括大量的记录,每条记录包括一个和多个字段。每个字段一般存储单个信息分段。在这种数据库中,对与个人相关联的记录的检索一般包括使用唯一的标识值,或者“键”,例如ID号。对于某些检索任务,唯一的标识值并不总是可用,并且个人的名称自身必须用作标识值或“键”。但是,人名具有若干限制,这些限制抑止了它们作为从数据库检索信息的标识值的有效性。例如,人名不是唯一的。无数的个人可能拥有在某些元素甚至所有元素方面与许多其他个人相同的姓名。在极端的情况中,数千甚至数以百计的不同的人共同使用相同的姓名。相反,非常相关的人员每个在拼写共同拥有的姓时有时在拼写方式上表现出极大的差异。另外,具体的个人可能出现在一个数据库的多个不同的记录中,并且该人的姓名可以在那些数据库记录中以稍稍不同或非常不同的形式给出。另外,姓名的使用并不一致。在美国社会中,实际上在全球大多社会中,在提供随后放置到数据库中的信息时,允许个人在一定程度上自由确定他们以口头或书面提供姓名的形式。此外,姓名会随时间改变。姓名是用于记录各种类型的信息的社会对象,所以随着时间流逝可以以各种方式对他们进行修改,以便通过该载体反映社会或个人状态的改变。在许多西方社会中,例如,姓名可能随时间改变,以便反应婚姻状态、教育或专业成就,甚至性别关系的改变。使用个人姓名作为数据库键的另一个缺点是不能一致地获得姓名。由于在特定的语言中验证姓名的拼法比验证大都其他词的拼法更困难,所以数据库中的姓名信息发生拼写和键入错误的几率很大。由于命名传统倾向于随文化不同而不同,所以这使使用个人姓名作为标识符更困难了。可能假设结构为单个教名(名字),单个中间名或直接跟随姓(姓)的典型美国人姓名结构应用到包含来自全世界的姓名的数据库是不合适的。例如,来自其他文化的姓名可能具有复姓或可能仅由一个名称构成。此外,在多种语言/文化之间和单一语言/文化内,姓名可能具有不同的形式和变体。同一姓名的若干变体可能指单个人或实体。例如,基于书写的语言,一个姓名可能被不同拼写,这些不同的拼写指单个人。另外,个人的姓名及其称谓/头衔可能由于一个事件而以一定模式的可预测的方式改变,例如结婚、守寡或者从专业学校毕业。类似地,打字错误或其他噪声源可能产生姓名的变体,该变体与原始姓名指向同一个人。将一个姓名的每个变体作为指向不同人员或实体来对待相比,匹配可能都指向同一个人的一个姓名的变体可能是有益的。
技术实现思路
在一个一般方面中,一种标识相关姓名的系统包括持久地存储姓名集合的数据存储设备。所述数据存储设备中至少一个姓名由该姓名的母语拼写形式(NOF)和该母语拼写形式的音译形式二者表示。该系统包括构造并布置为接收输入姓名的输入界面。音译模块被构造并布置为产生输入姓名的至少一个音译形式。标识符被构造并布置为从数据存储设备中标识出与输入姓名的音译形式相关的至少一个姓名。输出界面呈现从数据存储设备中标识出的至少一个姓名作为与输入姓名相关的姓名。该方面的实现方式可以包括一个或多个以下示例性特征。数据存储设备中的姓名中的至少一个可以通过对该姓名的母语拼写形式进行音译导出。在数据存储设备中,至少一个姓名由利用该姓名的罗马化或非罗马化版本的母语拼写形式和利用该姓名的罗马化或非罗马化版本的音译形式表示。在接收到母语拼写形式(例如,西里尔、阿拉伯、汉语、Hangul、罗马或希腊书写形式,或者这些书写形式的扩展)的输入姓名的情况下,可以从接收到的输入姓名的母语拼写形式生成该输入姓名的一个或多个罗马化形式。音译模块可以产生单个输入姓名的多个音译形式,这多个音译形式中的许多或每个用来从数据存储设备中标识相关姓名。输入姓名的音译形式可以被与数据存储设备中存储的姓名的类似形式匹配。可以给与输入姓名的音译形式匹配的姓名的类似形式中的每个都分配一个分值。每个分值可以指示输入姓名的音译形式和对应的类似形式之间的匹配程度。如果输入姓名的音译形式是罗马形式,并且在数据存储设备中存储的姓名的音译形式也是罗马形式,则输入姓名的罗马形式被与在数据存储设备中存储的姓名的罗马形式匹配。相反,输入姓名的音译形式是非罗马形式,并且在数据存储设备中存储的姓名的音译形式也是非罗马形式,则输入姓名的非罗马形式与在数据存储设备中存储的姓名的非罗马形式匹配。由数据存储设备存储的母语拼写形式可以被标识为与数据存储设备中的被确定与输入姓名的音译形式匹配的一个或多个姓名的音译形式相对应。所产生的结果包括存储设备内的被确定与输入姓名的音译形式匹配的姓名的一个或多个音译形式或母语拼写形式。在另一个一般方面中,该系统可以基于各种标准从候选的可能音译方案中选择要应用到输入姓名的音译方案,所述各种标准例如包括(1)输入姓名的特性,例如,输入姓名内在的地理或语言学指示,(2)输入姓名所匹配的姓名池的特性,和/或(3)在标识从其接收到输入姓名的一方的地理或语言学特性时可能有用的输入姓名或姓名池的外部数据。这样,一种标识相关姓名的系统包括用于持久地存储姓名集合的数据存储设备。该系统包括构造并配置为接收输入姓名的输入界面。音译模块被构造并布置为应用动态选择的音译方案来产生输入姓名的至少一个音译形式,其中该音译方案是由模块从可应用到输入姓名的若干音译方案中动态选择出的。标识符被构造并布置为从数据存储设备中标识出与输入姓名的音译形式相关的至少一个姓名。输出界面呈现从数据存储设备中标识出的至少一个姓名作为与输入姓名相关的姓名。除了以上相对于其他方面指示出的那些外,本方面的实现方式可以包括以下示例性特征中的一个或多个。用于动态选择音译方案的模块可以包括用于确定输入姓名的特性的模块,以及基于所确定出的输入姓名的特性来从若干可用音译方案选择要应用到所述输入姓名的音译方案的模块。所确定的输入姓名的特性可以包括输入姓名的候选母语拼写形式,该候选母语拼写形式可以是基于与输入姓名的一个或多个字符关联的Unicode的范围确定的。此外,可以针对输入姓名的多于一个分段确定独立的特性,其中输入姓名的分段与整个输入姓名中的不同名称独立对应。例如,可以确定输入姓名的第一段的第一特性和输入姓名的第二段的第二特性,其中第一特性和第二特性不同。在一种实现方式中,第一特性对应于第一候选母语拼写形式,第二特性对应于第二候选母语拼写形式,并且第二候选母语拼写形式与第一候选母语拼写形式不同。在每种实例中,第一和第二候选母语拼写形式可以代表单种语言内的母语拼写形式。另外或可替换地,用于动态选择音译方案的模块可以包括用于确定数据存储设备内的姓名的特性的模块,以及用于基于所确定的数据存储设备内的姓名的特性来从若干个可用的音译方案中选择要应用到输入姓名的音译方案的模块。用于确定数据存储设备内的姓名的特性的模块可以被构造并布置为标识相对于其他音译形式频繁出现的所存储的姓名的母语拼写形式的一种或多种特定音译形式,并且用于选择要应用到输入姓名的音译方案的模块可以被构造并布置为选择与所标识出的一种或多种特定音译形式相对应的音译方案。另外或可替换地,用于动态选择音译方案的模块可以包括用于接收与输入姓名的母语拼写形式相关本文档来自技高网
...

【技术保护点】
一种标识相关姓名的系统,包括:数据存储设备,用于持久地存储姓名集合,所述数据存储设备中至少一个姓名由所述姓名的母语拼写形式和所述母语拼写形式的音译形式二者表示;输入界面,构造并布置为接收输入姓名;音译模块,构造并布置 为产生所述输入姓名的至少一个音译形式;标识符,构造并布置为从所述数据存储设备中标识出与所述输入姓名的音译形式相关的至少一个姓名;以及输出界面,用于呈现从所述数据存储设备中标识出的所述至少一个姓名作为与所述输入姓名相关的姓名。

【技术特征摘要】
【国外来华专利技术】US 2003-9-17 60/503,5851.一种标识相关姓名的系统,包括数据存储设备,用于持久地存储姓名集合,所述数据存储设备中至少一个姓名由所述姓名的母语拼写形式和所述母语拼写形式的音译形式二者表示;输入界面,构造并布置为接收输入姓名;音译模块,构造并布置为产生所述输入姓名的至少一个音译形式;标识符,构造并布置为从所述数据存储设备中标识出与所述输入姓名的音译形式相关的至少一个姓名;以及输出界面,用于呈现从所述数据存储设备中标识出的所述至少一个姓名作为与所述输入姓名相关的姓名。2.如权利要求1所述的系统,其中,所述数据存储设备中的姓名中的至少一个是通过对所述姓名的母语拼写形式进行音译导出的。3.如权利要求1所述的系统,其中,所述由数据存储设备维护的至少一个姓名由利用所述姓名的非罗马化版本的母语拼写形式和利用所述姓名的罗马化版本的音译形式表示。4.如权利要求1所述的系统,其中,所述由数据存储设备维护的至少一个姓名由利用所述姓名的非罗马化版本的母语拼写形式和利用所述姓名的非罗马化版本的音译形式表示。5.如权利要求1所述的系统,其中,所述由数据存储设备维护的至少一个姓名由利用所述姓名的罗马化版本的母语拼写形式和利用所述姓名的罗马化版本的音译形式表示。6.如权利要求1所述的系统,其中,所述由数据存储设备维护的至少一个姓名由利用所述姓名的罗马化版本的母语拼写形式和利用所述姓名的非罗马化版本的音译形式表示。7.如权利要求1所述的系统,其中,所述输入界面构造并布置为接收母语拼写形式的输入姓名,并且所述音译模块构造并布置为根据所接收到的输入姓名的母语拼写形式生成所述输入姓名的一个或多个罗马化形式。8.如权利要求7所述的系统,其中,所述音译模块构造并布置为标识以西里尔书写形式输入的姓名的罗马化版本。9.如权利要求7所述的系统,其中,所述音译模块构造并布置为标识以阿拉伯书写形式输入的姓名的罗马化版本。10.如权利要求9所述的系统,其中,所述音译模块构造并布置为标识以阿拉伯书写形式的扩展输入的姓名的罗马化版本,所述阿拉伯书写形式的扩展例如是波斯语书写形式。11.如权利要求7所述的系统,其中,所述音译模块构造并布置为标识以汉语书写形式输入的姓名的罗马化版本。12.如权利要求7所述的系统,其中,所述音译模块构造并布置为标识以Hangul书写形式输入的姓名的罗马化版本。13.如权利要求7所述的系统,其中,所述音译模块构造并布置为标识以罗马书写形式输入的姓名的罗马化版本。14.如权利要求7所述的系统,其中,所述音译模块构造并布置为标识以希腊语书写形式输入的姓名的罗马化版本。15.如权利要求1所述的系统,其中所述音译模块构造并布置为产生单个输入姓名的多个音译形式,并且所述标识符构造并布置为从所述数据存储设备中标识出与所述音译模块针对所述单个输入姓名产生的所述音译形式中的多于一个相关的姓名。16.如权利要求1所述的系统,其中,所述标识符构造并布置为将所述输入姓名的音译形式与所述数据存储设备中存储的姓名的类似形式匹配。17.如权利要求16所述的系统,其中,所述标识符构造并布置为给在所述数据库中存储的与所述输入姓名的音译形式匹配的姓名的类似形式中的每个都分配一个分值,所述每个分值指示所述输入姓名的音译形式和对应的类似形式之间的匹配程度。18.如权利要求16所述的系统,其中,所述输入姓名的音译形式是罗马形式,并且在所述数据存储设备中存储的姓名的音译形式是罗马形式,使得所述输入姓名的罗马形式与在所述数据存储设备中存储的姓名的罗马形式匹配。19.如权利要求16所述的系统,其中,所述输入姓名的音译形式是非罗马形式,并且在所述数据存储设备中存储的姓名的音译形式是非罗马形式,使得所述输入姓名的非罗马形式与在所述数据存储设备中存储的姓名的非罗马形式匹配。20.如权利要求16所述的系统,其中,所述标识符构造并布置为标识由所述数据存储设备存储的这样的母语拼写形式,所述母语拼写形式与所述数据存储设备中的被确定与所述输入姓名的音译形式匹配的一个或多个姓名的音译形式相对应。21.如权利要求20所述的系统,其中,所述输出界面构造并布置为产生所述存储设备内的被确定与所述输入姓名的音译形式匹配的姓名的音译形式。22.如权利要求20所述的系统,其中,所述输出界面构造并布置为产生这样的姓名的母语拼写形式,所述姓名的母语拼写形式被标识为与所述存储设备内的被确定与所述输入姓名的音译形式匹配的姓名的音译形式相对应。23.如权利要求22所述的系统,其中,所述输出界面还构造并布置为产生所述存储设备内的被确定与所述输入姓名的音译形式匹配的姓名的音译形式。24.如权利要求1所述的系统,还包括用于从若干个可用音译方案中动态地选择要应用到所述输入姓名的音译方案的模块。25.如权利要求24所述的系统,其中,所述用于动态地选择音译方案的模块包括用于确定所述输入姓名的特性的模块,以及用于基于所确定的所述输入姓名的特性来从若干个可用的音译方案中选择要应用到所述输入姓名的音译方案的模块。26.如权利要求25所述的系统,其中,所确定的输入姓名的特性包括所述输入姓名的候选母语拼写形式。27.如权利要求26所述的系统,其中,所述输入姓名的候选母语拼写形式是基于与所述输入姓名的一个或多个字符关联的Unicode的范围确定的。28.如权利要求25所述的系统,其中,所述模块确定所述输入姓名的多于一个段的独立特性,其中所述输入姓名的段与所述整个输入姓名中的不同名称独立地对应。29.如权利要求28所述的系统,其中,所述模块确定所述输入姓名的第一段的第一特性和所述输入姓名的第二段的第二特性,其中所述第一特性和第二特性不同。30.如权利要求29所述的系统,其中,所述第一特性对应于第一候选母语拼写形式,所述第二特性对应于第二候选母语拼写形式,并且所述第二候选母语拼写形式与所述第一候选母语拼写形式不同。31.如权利要求30所述的系统,其中,所述第一和第二候选母语拼写形式代表单种语言内的母语拼写形式。32.如权利要求24所述的系统,其中,所述用于动态选择所述音译方案的模块包括用于确定所述数据存储设备内的姓名的特性的模块;以及用于基于所确定出的所述数据存储设备内的姓名的特性来从若干可用音译方案选择要应用到所述输入姓名的音译方案的模块。33.如权利要求32所述的系统,其中,所述用于确定所述数据存储设备内的姓名的特性的模块构造并布置为标识相对于其他音译形式频繁出现的所存储的姓名的母语拼写形式的一种或多种特定音译形式,并且用于选择要应用到所述输入姓名的音译方案的模块选择与所标识出的一种或多种特定音译形式相对应的音译方案。34.如权利要求33所述的系统,其中,所述用于动态选择所述音译模块的模块包括用于接收与所述输入姓名的母语拼写形式相关的外部数据的模块;以及用于基于所接收到的外部数据来从若干可用音译方案中选择要应用到所述输入姓名的音译方案的模块。35.如权利要求34所述的系统,其中,所述外部数据包括与从其接收到所述输入姓名的人员相关的地理数据。36.如权利要求35所述的系统,其中,所述外部数据是从所述人员给出的标识文档导出的。37.如权利要求1所述的系统,其中,所述数据存储设备包括与一种或多种语言、文化和编码方案相对应的姓名。38.一种用于标识相关姓名的方法,包括存储姓名集合,至少一个存储的姓名由所述至少一个姓名的母语拼写形式和所述母语拼写形式的音译形式二者表示;接收输入姓名;产生所述输入姓名的至少一个音译形式;从所述集合中标识出与所述输入姓名的音译形式相关的至少一个姓名;以及呈现从所述集合中标识出的所述至少一个姓名,作为与所述输入姓名相关的姓名。39.如权利要求38所述的方法,其中,所存储的姓名中的至少一个是通过对所述姓名的母语拼写形式进行音译导出的。40.如权利要求38所述的方法,其中,所存储的至少一个姓名由利用所述姓名的非罗马化版本的母语拼写形式和利用所述姓名的罗马化版本的音译形式表示。41.如权利要求40所述的方法,其中接收所述输入姓名的步骤包括接收所述母语拼写形式的输入姓名;产生所述输入姓名的至少一个音译形式的步骤包括根据所接收到的输入姓名的母语拼写形式产生所述输入姓名的一个或多个罗马化形式。42.如权利要求41所述的方法,其中,产生所述输入姓名的至少一个音译形式的步骤还包括标识以西里尔书写形式输入的姓名的罗马化版本。43.如权利要求41所述的方法,其中,产生所述输入姓名的至少一个音译形式的步骤还包括标识以阿拉伯书写形式输入的姓名的罗马化版本。44.如权利要求38所述的方法,其中产生所述输入姓名的至少一个音译形式的步骤包括产生单个输入姓名的多个音译形式,以及标识与所述输入的音译形式相关的至少一个姓名的步骤包括标识由音译模块针对所述单个输入姓名产生的音译形式中的多于一个相关的姓名。45.如权利要求38所述的方法,其中,标识与所述输入的音译形式相关的至少一个姓名的步骤包括将所述输入姓名的音译形式与所存储的所述姓名的类似形式相匹配。46.如权利要求45所述的方法,还包括给所存储的与所述输入姓名的音译形式匹配的姓名的类似形式中的每个都分配一个分值,所述每个分值指示所述输入姓名的音译形式和对应的类似形式之间的匹配程度。47.如权利要求45所述的方法,其中,所述输入姓名的音译形式是罗马形式,并且所存储的姓名的音译形式是罗马形式,使得所述输入姓名的罗马形式与所存储的姓名的罗马形式匹配。48.如权利要求45所述的方法,其中,所述输入姓名的音译形式是非罗马形式,并且所存储的姓名的音译形式是非罗马形式,使得所述输入姓名的非罗马形式与所存储的姓名的非罗马形式匹配。49.如权利要求45所述的方法,其中,标识与所述输入的音译形式相关的所述至少一个姓名的步骤还包括标识所存储的被确定与所述输入姓名的音译形式匹配的一个或多个姓名的音译形式相对应的所存储的母语拼写形式。50.如权利要求49所述的方法,其中,呈现所标识出的至少一个姓名作为与所述输入姓名相关的姓名的步骤包括产生所存储的被确定与所述输入姓名的音译形式匹配的姓名的音译形式。51.如权利要求50所述的方法,其中,呈现所标识出的至少一个姓名作为与所述输入姓名相关的姓名的步骤包括产生下述姓名的母语拼写形式,所述姓名的母语拼写形式被标识为与被确定与所述输入姓名的音译形式匹配的所存储的姓名的音译形式相对应。52.如权利要求51所述的方法,其中,呈现所标识出的至少一个姓名作为与所述输入姓名相关的姓名的步骤还包括产生被确定与所述输入姓名的音译形式匹配的所存储的姓名的音译形式。53.如权利要求38所述的方法,还包括从若干个可用音译方案中动态地选择要应用到所述输入姓名的音译方案。54.如权利要求53所述的方法,其中,动态选择音译方案的步骤包括确定所述输入姓名的特性...

【专利技术属性】
技术研发人员:小伦纳德阿瑟尔谢弗弗兰吉ED帕特曼理查德吉拉姆
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1