【技术实现步骤摘要】
用于识别名称集中的非独特名称的方法与系统
本专利技术的实施方式涉及识别名称集中的非独特名称。
技术介绍
实体解析(或者身份消歧)技术可以用于确定什么时候两个或更多个实体(例如,人、建筑物、地方、组织、文档、汽车、事物、其它对象,等等)尽管有不同的描述但是代表相同的物理实体。有时候这些技术被称为重复数据删除、匹配/合并、身份解析、语义和解或者有其它的名称。例如,包含CustID#1[BobJones,位于123MainStreet,生日(DOB)为6/21/45]的第一个记录有可能代表与包含CustID#2[BobKJones,位于123S.MainStreet,DOB为6/21/1945]的第二个记录相同的实体。实体解析可以在单个数据源中用于找出重复,跨数据源确定完全不同的事务如何关联到一个实体,或者同时用在多个数据源中和跨多个数据源使用。实体解析的结果可以用包含身份数据阵列的数据集提供。然而,存在许多其主要识别属性是名称的数据集。对于任何实体,都可以存在代表该实体的多个名称,有些名称不如其它名称独特。作为一个实体独特表示的名称是增加对其身份的理解或者提供对其身份的更多前后关系的名称。名称可以包括以下中的一个或多个:姓或起首字母,中间名或起首字母,名或起首字母,等等。以下是一个例子,其中实体1有三个名称(即,实体1的表示),而实体2有两个名称(即,实体2的表示)。实体1:实体2:JOHNB.SMITHJOHNDAVIDSMITHJOHNBRIANSMITHPETETHOMPSONJOHNSMITH基于各种匹配特征(例如,每个名称的相同的社会保险号),可以知 ...
【技术保护点】
一种用于识别名称集中的非独特名称的方法,包括:利用计算机的处理器,获得用于第一实体的名称集;响应于比较所述名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似;在所述第一名称和第二名称中搜索起首字母;响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述至少一个起首字母与所述第一名称和第二名称中的另一个名称中的对应起首字母相匹配;及把所述第一名称和第二名称中的一个名称标记为非独特名称;及应用交叉实体打分技术,该技术使用用于所述第一实体的名称集中的独特名称和用于第二实体的另一名称集中的名称。
【技术特征摘要】
2011.08.11 US 13/208,1891.一种用于识别名称集中的非独特名称的方法,包括:利用计算机的处理器,获得用于第一实体的名称集;响应于比较所述名称集中的第一名称和第二名称,确定所述第一名称与第二名称相似;在所述第一名称和第二名称中搜索起首字母;响应于所述搜索指示在所述第一名称和第二名称中的至少一个中存在至少一个起首字母,确定所述第一名称和第二名称中的至少一个名称中的所述至少一个起首字母与所述第一名称和第二名称中的另一个名称中的对应起首字母相匹配;及把所述第一名称和第二名称中的一个名称标记为非独特名称;及应用交叉实体打分技术确定用于所述第一实体的名称集中的独特名称和用于第二实体的另一名称集中的名称的相似性,其中,确定所述至少一个起首字母与对应起首字母相匹配还包括:确定在所述第一名称和第二名称中是否存在对应匹配起首字母,或者在所述第一名称和第二名称中的一个名称中是否存在在第一位置具有与所述第一名称和第二名称中的另一个名称中的对应标志相匹配的字符的标志;及响应于确定所述第一名称和第二名称中存在对应匹配起首字母,或者在所述第一名称和第二名称中的一个名称中存在在所述第一位置具有与所述第一名称和第二名称中的另一个名称中的对应标志相匹配的字符的标志,把所述第一名称和第二名称中的一个名称标记为非独特名称。2.如权利要求1所述的方法,还包括:响应于所述搜索指示在所述第一名称和第二名称中不存在起首字母,把所述第一名称和第二名称中的一个名称标记为非独特名称。3.如权利要求1所述的方法,其中,确定所述第一名称与第二名称相似还包括:计算所述第一名称和第二名称之间的公共字符计数;计算所述第一名称和第二名称之间的换位计数;及如果所述公共字符计数等于所述第一名称的长度而且所述换位计数小于可配置的数字,则确定所述第一名称和第二名称是相似的。4.如权利要求3所述的方法,还包括:响应于确定所述公共字符计数等于所述第一名称的长度而且所述换位计数小于所述可配置的数字,比较一个或多个起首字母标志。5.如权利要求3所述的方法,其中,所述公共字符计数是基于通过从左向右移动来识别匹配且处于相同的相对位置的字符而执行所述第一名称和第二名称之间的字符比较。6.如权利要求3所述的方法,其中,对于所述第一名称中没有被匹配的任何字符,所述公共字符计数是基于在所述第一名称和第二名称中在可配置的搜索范围内向前和向后搜索来识别匹配的字符。7.如权利要求3所述的方法,其中,计算换位计数还包括:计数换位的次数;及用二去除计数出的换位次数。8.一种用于识别名称集中的非独特名称的计算机系统,包括:处理...
【专利技术属性】
技术研发人员:T·B·艾伦,B·E·玛西,C·J·文森特,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。