用于识别名称集中的非独特名称的方法与系统技术方案

技术编号:8532930 阅读:162 留言:0更新日期:2013-04-04 15:57
本发明专利技术公开了用于识别名称集中的非独特名称的方法和系统。针对第一实体获得名称集。响应于比较该名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似。搜索所述第一名称和第二名称中的起首字母。响应于搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母与所述第一名称和第二名称中的另一个名称中的对应起首字母相匹配,并把所述第一名称和第二名称中的一个名称标记为非独特名称。应用交叉实体打分技术,这种技术使用用于第一实体的名称集中的独特名称和用于第二实体的另一名称集中的名称。

【技术实现步骤摘要】
用于识别名称集中的非独特名称的方法与系统
本专利技术的实施方式涉及识别名称集中的非独特名称。
技术介绍
实体解析(或者身份消歧)技术可以用于确定什么时候两个或更多个实体(例如,人、建筑物、地方、组织、文档、汽车、事物、其它对象,等等)尽管有不同的描述但是代表相同的物理实体。有时候这些技术被称为重复数据删除、匹配/合并、身份解析、语义和解或者有其它的名称。例如,包含CustID#1[BobJones,位于123MainStreet,生日(DOB)为6/21/45]的第一个记录有可能代表与包含CustID#2[BobKJones,位于123S.MainStreet,DOB为6/21/1945]的第二个记录相同的实体。实体解析可以在单个数据源中用于找出重复,跨数据源确定完全不同的事务如何关联到一个实体,或者同时用在多个数据源中和跨多个数据源使用。实体解析的结果可以用包含身份数据阵列的数据集提供。然而,存在许多其主要识别属性是名称的数据集。对于任何实体,都可以存在代表该实体的多个名称,有些名称不如其它名称独特。作为一个实体独特表示的名称是增加对其身份的理解或者提供对其身份的更多前后关系的名称。名称可以包括以下中的一个或多个:姓或起首字母,中间名或起首字母,名或起首字母,等等。以下是一个例子,其中实体1有三个名称(即,实体1的表示),而实体2有两个名称(即,实体2的表示)。实体1:实体2:JOHNB.SMITHJOHNDAVIDSMITHJOHNBRIANSMITHPETETHOMPSONJOHNSMITH基于各种匹配特征(例如,每个名称的相同的社会保险号),可以知道用于单个实体的多个名称与那单个实体关联。因而,尽管JOHNDAVIDSMITH和PETETHOMPSON看起来不一样,但是仍然知道这两个名称与实体2关联。实体1中的名称JOHNSMITH是实体1中每个其它名称的显然非独特的重复性表示。名称JOHNSMITH没有增加对实体1中名称的任何前后关系或者理解。另外,实体1中的名称JOHNSMITH也可能是实体2中名称JOHNDAVIDSMITH的非独特表示。在尝试确定两个实体的名称的相似度时,实体解析系统可以执行交叉实体打分技术,该技术执行名称叉积的成对比较(例如,在比较的每一对名称中,一个名称来自实体1,而另一个名称来自实体2)并且为每对名称产生一个得分,可能产生以下结果:这个例子中最高的得分来自于与实体1最不独特表示的名称(JOHNSMITH)的比较。尽管这可能是合理的得分,但是这个得分并没有准确地表示实体中的名称多相似或者多不同。相反,最高的得分指示这些实体是非常相似的,但是事实上,它们有一些显著的冲突(中间名)。类似地,最低的得分是从比较非常不同的名称(PETETHOMPSON)产生的。同样,这个低得分是合理的,但是最低的得分可能没有准确地反映两个实体中名称之间的相似度。即使实体解析系统使用得分的平均值,而不是最高或最低得分,来基于这些得分决定这些名称的相似度,结果也将最有可能偏离更高。有些系统可以采取统计方法,其中给定名称的基数(cardinality)直接关联到数据集中实例的个数。这种方法可以假定不偏的数据集,可以假定不知道名称的真正区别,而且可以仅仅依赖于名称在给定数据集中的出现。而且,这种方法可以假定包含全世界名称的学习集。有些系统可以采取生存方法。生存是把每个实体向下减少到只有最佳元素的过程。在这种系统中,实体将不包含多个名称,因为生存规则将把一列名称减少到一个名称。一般来说,生存规则是简单的规则(例如,最长的串或者最多的词)。
技术实现思路
提供了用于识别名称集中的非独特名称的方法、计算机程序产品和系统。该名称集是针对第一实体获得的。响应于比较该名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似。搜索所述第一名称和第二名称中的起首字母。响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母匹配所述第一名称和第二名称中的另一个中的对应起首字母,而且所述第一名称和第二名称中的一个被标记为非独特名称。应用交叉实体打分技术,该技术利用用于所述第一实体的所述名称集中的独特名称和用于第二实体的另一名称集中的名称。附图说明现在参考附图,其中贯穿所有附图,相同的标号都代表对应的部件:图1以框图例示了根据某些实施方式的计算设备。图2A和2B以流程图例示了根据某些实施方式的由实体解析系统执行的用以检测实体集中的独特名称的逻辑。图3以流程图例示了根据某些实施方式的由实体解析系统执行的用以确定第一名称和第二名称是否相似的逻辑。图4以框图例示了根据某些实施方式的来自用于名称比较的原型的打分日志。图5以框图例示了根据某些实施方式可以使用的计算机体系结构。具体实施方式为了说明,给出本专利技术各种实施方式的描述,但所述描述不是详尽的或者限定到所公开的实施方式。在不背离所述实施方式的范围与主旨的范围内,许多修改和变化对于本领域普通技术人员都是显而易见的。在此所使用的术语选择成最好地解释所述实施方式的原理、实践应用或者超越市场中可以找到的技术的技术改进,或者使本领域普通技术人员能够理解在此所公开的实施方式。图1以框图例示了根据某些实施方式的计算设备100。计算设备100包括实体解析系统110。计算设备100耦合到数据仓库(datastore)150。数据仓库150存储用于多个实体(例如,人、建筑物、地方、组织、文档、汽车、事物、其它对象,等等)的多个名称。在某些实施方式中,数据仓库150是数据库。关系数据库是计算机化信息存储与检索系统。关系数据库组织成包含数据行与列的表。行可以称为元组(tuple)或者记录或者行。一个数据库一般有许多表,而且每个表一般都有多个记录和多个列。实体解析系统110获得用于单个实体的多个名称。实体解析系统110比较一个实体的两个名称(例如,用于实体1的两个名称)并确定这两个名称中的一个是否是另一个名称的较不独特版本。在某些实施方式中,实体解析系统110不依赖任何名称数据存档/全局数据源、文化信息或者解析数据。例如,参考实体1,如果根据分析忽略了最不独特的名称(JOHNSMITH、JOHNB.SMITH),则结果产生的交叉实体打分将更准确地代表名称中的相似性或者不同,而且由实体解析系统110基于这些得分做出的决定将导致更高的质量分析。例如,最高的得分将准确地代表贡献于最高保真度数据的实体中名称之间的最高匹配水平;而最低的得分将准确地代表最大的冲突;而平均值将不会偏离更高,因为平均值将基于提供关于该实体的最非一般信息的名称。实体解析系统110提供把评估或交叉实体打分限制到只有代表一个实体的独特名称的能力,而且这导致更准确的分析结果。包括较不独特的名称更有可能产生每个实体中名称的相似性的偏离分析。实体解析系统110评估本地空间中的每个给定的名称,以便确定将提供实体解析框架中最准确结果的独特名称集。即,实体解析系统110将用于单个实体的名称与用于该实体的其它名称进行比较。即,在这个时候,实体解析系统110不看其它实体。因而,这是单实体(其具有代表那单个实体的多个名称)处理。图2A和2B以流程图例示了根据某些实施方式的由实体解析系统110执行的用以本文档来自技高网
...
用于识别名称集中的非独特名称的方法与系统

【技术保护点】
一种用于识别名称集中的非独特名称的方法,包括:利用计算机的处理器,获得用于第一实体的名称集;响应于比较所述名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似;在所述第一名称和第二名称中搜索起首字母;响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母与所述第一名称和第二名称中的另一个名称中的对应起首字母相匹配;及把所述第一名称和第二名称中的一个名称标记为非独特名称;及应用交叉实体打分技术,该技术使用用于所述第一实体的名称集中的独特名称和用于第二实体的另一名称集中的名称。

【技术特征摘要】
2011.08.11 US 13/208,1891.一种用于识别名称集中的非独特名称的方法,包括:利用计算机的处理器,获得用于第一实体的名称集;响应于比较所述名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似;在所述第一名称和第二名称中搜索起首字母;响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述第一名称和第二名称中的至少一个名称中的所述至少一个起首字母与所述第一名称和第二名称中的另一个名称中的对应起首字母相匹配;及把所述第一名称和第二名称中的一个名称标记为非独特名称;及应用交叉实体打分技术确定用于所述第一实体的名称集中的独特名称和用于第二实体的另一名称集中的名称的相似性,其中,确定所述至少一个起首字母与对应起首字母相匹配还包括:确定在所述第一名称和第二名称中是否存在对应匹配起首字母,或者在所述第一名称和第二名称中的一个名称中是否存在在第一位置具有与所述第一名称和第二名称中的另一个名称中的对应标志相匹配的字符的标志;及响应于确定所述第一名称和第二名称中存在对应匹配起首字母,或者在所述第一名称和第二名称中的一个名称中存在在所述第一位置具有与所述第一名称和第二名称中的另一个名称中的对应标志相匹配的字符的标志,把所述第一名称和第二名称中的一个名称标记为非独特名称。2.如权利要求1所述的方法,还包括:响应于所述搜索指示在所述第一名称和第二名称中不存在起首字母,把所述第一名称和第二名称中的一个名称标记为非独特名称。3.如权利要求1所述的方法,其中,确定所述第一名称与第二名称相似还包括:计算所述第一名称和第二名称之间的公共字符计数;计算所述第一名称和第二名称之间的换位计数;及如果所述公共字符计数等于所述第一名称的长度而且所述换位计数小于可配置的数字,则确定所述第一名称和第二名称是相似的。4.如权利要求3所述的方法,还包括:响应于确定所述公共字符计数等于所述第一名称的长度而且所述换位计数小于所述可配置的数字,比较一个或多个起首字母标志。5.如权利要求3所述的方法,其中,所述公共字符计数是基于通过从左向右移动来识别匹配且处于相同的相对位置的字符而执行所述第一名称和第二名称之间的字符比较。6.如权利要求3所述的方法,其中,对于所述第一名称中没有被匹配的任何字符,所述公共字符计数是基于在所述第一名称和第二名称中在可配置的搜索范围内向前和向后搜索来识别匹配的字符。7.如权利要求3所述的方法,其中,计算换位计数还包括:计数换位的次数;及用二去除计数出的换位次数。8.一种用于识别名称集中的非独特名称的计算机系统,包括:处理...

【专利技术属性】
技术研发人员:T·B·艾伦B·E·玛西C·J·文森特
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1