基于与共同实体的关系的实体解析制造技术

技术编号:9978299 阅读:121 留言:0更新日期:2014-04-29 00:28
本发明专利技术公开了用于基于与共同实体的关系解析实体的技术。在一个实施例中,比较两个实体以确定实体解析阈值未被满足。确定共同与两个实体相关的一个或多个实体。基于一个或多个共同关联的实体,确定两个实体满足实体解析阈值。随后两个实体被解析为单个实体。

【技术实现步骤摘要】
【国外来华专利技术】基于与共同实体的关系的实体解析
技术介绍
实体解析应用典型地执行实体解析和关系解析中的一个或两者。实体解析试图回答“谁是谁?”的问题,即,确定多个数据记录实际是否是指相同的物理实体或不同的物理实体。例如,识别两个姓氏不同的妇女的数据记录实际上可能是指具有父姓和夫姓两者的同一个妇女。关系解析试图例如通过交叉参考来自不同源的数据,回答“谁知道谁?”的问题,以便确定实体之间的关系的益处和/或风险,这些实体诸如顾客、雇员、卖主等。例如,可识别共享相同地址或电话号码的两个个体之间的关系。实体解析应用的一个例子是可从纽约州阿蒙克市的国际商业机器公司获得的InfoSphereIdentityInsight。
技术实现思路
本专利技术的实施例提供了一种计算机实现的方法、计算机程序产品和系统,其用于执行包括确定实体解析系统中的第一实体和第二实体之间的类似度得分的操作。每个实体包括一个或多个身份记录,其表示由实体解析系统假设存在的对应的物理实体。而且,每个身份记录包括含有表征对应物理实体的一个或多个属性的数据记录。操作还包括确定类似度分数不满足用于将第一实体和第二实体解析为单个实体的限定阈值。操作还包括识别与第一实体相关的一组一个或多个实体,以及与第二实体相关的一组一个或多个实体。操作还包括基于两个组的交集和通过一个或多个计算机处理器的操作,调整类似度得分,其中所述交集包括至少第三实体。操作也包括一旦确定调整的类似度得分满足预定阈值,确定第一实体和第二实体表示实体解析系统内相同的物理实体。附图说明为了详细理解上述方面被实现的方式,可通过参考附图阅读对以上概述的本专利技术的实施例的更详细的描述。但是应当注意,附图仅示出了本专利技术的典型实施例,且因此不被认为是限制其范围,因为本专利技术可允许其他同等有效的实施例。图1A是示出根据本专利技术的一个实施例的用于实体解析的系统的框图。图1B示出了根据本专利技术的一个实施例的用于基于共同相关的实体来解析实体的技术。图2示出了根据本专利技术的一个实施例、用于实体解析的应用可基于发现的关系为其调整类似度得分的实体的例子。图3示出了根据本专利技术的一个实施例、应用可基于发现的关系为其调整类似度得分的实体的另一个例子。图4示出了根据本专利技术的一个实施例、应用可基于披露的关系为其调整类似度得分的实体的例子。图5示出了根据本专利技术的一个实施例、应用可抑制由于与共同实体的关系而进行解析的实体的例子。图6示出了根据本专利技术的一个实施例、应用可抑制由于具有过大数量的关系的实体而进行解析的实体的例子。图7是示出根据本专利技术的一个实施例的用于基于与共同实体的关系来解析实体的方法的流程图。图8是示出根据本专利技术的一个实施例的用于确定一组一个或多个共同实体的方法的流程图。图9是示出根据本专利技术的一个实施例的用于实体解析的应用的组件的框图。具体实施方式本专利技术的实施例提供了一种用于实体解析的应用,其被配置为基于相关身份、实体、条件、活动或事件处理数据记录。在一个实施例中,应用维护为实体解析系统所知(或更具体地,由实体解析系统假设存在于物理世界)的不同物理实体的全体知识。在实体解析系统中,每个物理实体由相应逻辑实体(在此也被称为实体)表示。每个逻辑实体是一组一个或多个数据记录,其被确定为属于由相应逻辑实体表示的物理实体,即,与为实体解析系统已知的其他物理实体相对。换句话说,每个逻辑实体是一组数据记录,其包含描述由相应逻辑实体表示的特定物理实体的一个或多个属性。数据记录在此也被称为身份记录。表示实体解析系统所知的物理实体的逻辑实体也被称为已知(或现有)逻辑实体。物理实体可以是实体解析系统认为存在于物理世界的任何可识别实体,诸如个体、组织、位置、建筑、车辆、动物、物体等。在一个实施例中,当应用处理新接收到的数据记录(或重新处理现有的数据记录)时,应用确定被处理的数据记录是否属于实体解析系统已知的物理实体。如果是这样,应用添加该数据记录到用于该物理实体的组,即,该数据记录被处理,且表示该物理实体的组被整合或合并为单个逻辑实体。根据实施例,被处理的数据记录也可被实体解析系统认为具有其自己的逻辑实体,该数据记录是该逻辑实体的一部分。确定数据记录(或其逻辑实体)属于实体解析系统已知的特定物理实体在此也被称为将数据记录(或其逻辑实体)“解析为”表示特定物理实体的逻辑实体。在一些实施例中,应用也可确定数据记录不再属于给定的逻辑实体。在这样的情况下,数据记录可从给定的逻辑实体移除,并被分配给不同或新的逻辑实体。从逻辑实体移除数据在此也被称为从逻辑实体“剥离”数据记录。在一些情况下,有可能应用不将给定的数据记录解析为任何已知的逻辑实体。在这样的情况下,可以说应用确定数据记录解析为实体解析系统中其自己的逻辑实体。在一些实施例中,应用可额外创建数据记录的逻辑实体和实体解析系统中的已知逻辑实体之间的关系。换句话说,尽管应用没有将数据记录解析为任何已知的逻辑实体,应用仍可确定数据记录描述了与已知的物理实体存在某种关系的物理实体。例如,关系可指雇主雇员关系、配偶关系、卖主买主关系等。至少部分地可基于数据记录中包含的信息做出该确定。仅为了参考方便,“将被处理的数据记录”在此可被称为“入站身份记录”(inboundidentityrecord)。换句话说,入站身份记录是指将针对已知的逻辑实体被评估(或重新评估的)的任何身份记录,该评估是为了确定是否将身份记录解析为已知的逻辑实体(或从其剥离身份记录)。如上所述,逻辑实体(或实体)是指一组一个或多个身份记录,其被实体解析系统认为是描述了相同的物理实体。作为例子,当“BobSmith”登记入住酒店房间时,酒店入住记录中的家庭地址和电话号码可被用于将他匹配为与具有相同地址和电话号码的“RobertSmith”是同一个人。为了将“BobSmith”与“RobertSmith”进行匹配,描述“BobSmith”的身份记录与一组实体进行比较,每个实体表示不同的个人。在一个实施例中,解析身份记录并检测实体间的关系的过程可使用预定或可配置的实体解析规则来执行。典型地,两个实体间的关系是从与实体相关的身份记录中的信息(例如,共享地址、雇员、电话号码等)产生的,所述信息指示了两个实体间的关系。这种规则的两个例子包括以下:·如果入站身份记录具有相对于现有实体匹配的“社会保险号码”和接近的“全名”,则将入站身份记录解析为现有的实体。·如果入站身份记录与现有实体具有匹配的“电话号码”,则创建入站身份记录的实体和具有匹配电话号码的实体之间的关系第一条规则将新的入站记录添加到现有实体中,而第二条基于入站记录创建了两个实体之间的关系。当然,基于入站身份记录的类型,实体关系规则可被调整并适于特定情况的需要。在一个实施例中,用于实体解析的应用也可包括用于检测相关身份、身份、条件或事件的规则,即,用于基于进入的身份记录产生告警的规则。例如,规则可检查入站身份记录的属性并在发现特定匹配时产生告警(例如,入站身份记录使人感兴趣,因为它包括了特定邮编内的地址)。或者告警规则可指定这样的情况,其中入站身份记录的指定角色与另一个身份记录的指定角色冲突,该入站记录具有与该另一身份记录的零或更大度(degree)的关系(例如,具有指定角色“雇员”的身份与具有指定角色“卖主”的身份有很强的本文档来自技高网...
基于与共同实体的关系的实体解析

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2011.08.24 US 13/217,0271.一种计算机实施的方法,包括:确定实体解析系统中的第一实体和第二实体之间的类似度得分,每个实体包括表示由实体解析系统假设存在的对应物理实体的一个或多个身份记录,每个身份记录包括含有表征对应物理实体的一个或多个属性的数据记录;确定所述类似度得分不满足用于将第一实体和第二实体解析为单个实体的定义阈值;识别与所述第一实体相关的一组一个或多个实体以及与所述第二实体相关的一组一个或多个实体;基于两个组之间的交集并通过一个或多个计算机处理器的操作调整类似度得分,其中所述交集包括至少第三实体,其中至少第三实体不包括满足与第一和第二实体中的至少一个的类似度阈值的任何实体,其中满足类似度阈值包括具有与第一和第二实体中的至少一个的关系;以及一旦确定调整的类似度得分满足定义阈值,确定第一实体和第二实体表示实体解析系统内相同的物理实体。2.如权利要求1所述的计算机实施的方法,其中所述类似度得分是通过比较第一实体和第二实体的属性确定的,且其中所述第二实体是候选实体。3.如权利要求1所述的计算机实施的方法,其中所述第三实体是从基于以下各项中的至少一个识别的一组实体中选择的:(i)与第一实体或第二实体的分离度以及(ii)相关的关系强度;其中在识别所述一组实体时不考虑第一实体和第二实体之间的任何关系,其中至少一个关系包括发现关系和披露关系中的一个,且其中在识别所述一组实体时不考虑仅基于由第一和第二实体共享的一个或多个属性值的任何发现关系,其中披露关系是指实体间的任何用户指定关系,发现关系是指不是用户指定的、而是基于实体属性间的相似性被应用推断出来的关系。4.如权利要求1所述的计算机实施的方法,其中第三实体具有不超过预定阈值分离度,其中所述分离度是从第一实体和第二实体中的至少一个测量的。5.如权利要求1所述的计算机实施的方法,其中第三实体具有不超过预定阈值的一度关系计数。6.如权利要求1所述的计算机实施的方法,其中类似度得分是基于以下各项中的至少一个被调整的:(i)交集的范围;(ii)(A)至少第三实体和(B)第一实体和第二实体中的至少一个之间的关系的强度的度量;以及(iii)(A)至少第三实体和(B)第一实体和第二实体中的至少一个之间的分离度计数。7.如权利要求1所述的计算机实施的方法,其中该关系是仅基于对第一和第二实体共同的一个或多个身份属性。8.如权利要求7所述的计算机实施的方法,其中每个关系包括类似关系和关联关系中的一个,其中具有与第一和第二实体中的至少一个的发现关系、且满足类似度阈值的实体被指定为具有类似关系,且其中具有与第一和第二实体中的至少一个的披露关系的实体被指定为具有关联关系,其中披露关系是指实体间的任何用户指定关系,发现关系是指不是用户指定...

【专利技术属性】
技术研发人员:B·M·卡塞雷斯
申请(专利权)人:国际商业机器公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1