当前位置: 首页 > 专利查询>邓白氏公司专利>正文

将可操作属性归于描述个人身份的数据制造技术

技术编号:8416317 阅读:184 留言:0更新日期:2013-03-15 05:13
本发明专利技术提供了一种方法,包括(a)接收查询以启动对特定个人的数据搜索,(b)基于所述查询确定策略和灵活的预测方程,以搜索参考数据库,(c)根据所述策略,在所述参考数据库搜索所述查询的匹配,以及(d)输出所述匹配。该方法也输出与匹配相关的灵活的反馈,其反映了匹配过程的推断质量,终端用户可使用该反馈以确定被匹配主体满足终端用户的基于质量的标准的程度。本发明专利技术还提供了一种执行该方法的系统,和一种包含控制处理器执行该方法的指令的存储介质。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据库搜索,特别是在数据库中搜索与个人身份相关的给定查询最相匹配的记录,该个人身份可以包括期望的和未期望的数据属性,并且提取与查询最相匹配的记录以及解释该匹配过程和结 果的可操作反馈。
技术介绍
本部分描述的方法是可以被实行的方法,但不必是先前设想或实行的方法。因此,除非是另有说明,本部分描述的方法对于本申请的权利要求也许不是现有技术,且不被本部分包含的内容承认为现有技术。高效的数据库访问和搜索功能对于为了匹配目的保持在参照数据库中的数据的有效利用是重要的。这一目标的关键是能够高效提取匹配结果,以用一种有效又高效的方式识别和选择匹配结果,及提供可操作反馈的能力。所谓匹配结果即将参考数据匹配查询的结果,该查询包括预期作为查询一部分的个人标识和在前未知的标识。该可操作反馈可用于做出关于匹配结果的使用的业务决策,如用于持续有效的数据管理。具体到识别个体,现有技术考虑具体而有限数量的数据字段,例如给定的名字、姓氏、物理地址和电子邮件地址、职位和别名,或一组未定义的数据组成部分,其可能包括或者不包括关于个体的信息。现有技术一般是基于逐字符的或数学启发式的比较,在考虑到可允许的正交变量,例如拼写特定字的多种方式以及连字符、大小写、字分离、标点符号、已知的缩写和同义词的使用后,其产生基于多个匹配字符或其他基本相关信息的准确性的评判。另外,现有技术假设了查询数据的一种特定结构,且没有考虑到与个体相关的有限的但是时间上无限制的高价值的预测的数据元素的集合或其他衍生标识,而这些已经被验证并合成或集成到个体的数据库,以用于匹配过程。
技术实现思路
本专利技术提供了一种方法,该方法包括(a)接收查询以启动对特定个体的数据的搜索,(b)基于该查询,确定策略以搜索一个参考数据库,(c)根据策略,在参考数据库搜索查询的匹配;和(d)输出匹配。该方法也可提供与匹配相关的反馈,其反映了匹配的推断质量,终端用户可用其确定被匹配主体满足终端用户的基于质量的标准的程度。本专利技术还提供了执行该方法的系统以及包含控制处理器执行该方法的指令的存储介质。处理查询以确认和合成查询标识,包括期望的和非期望的数据组成部分,以评估和选择候选。关于个体的参考数据被保存在数据库,访问、评估和使用该参考数据以识别对查询的匹配。提供匹配结果和可操作数据给查询者或查询系统,包括描述匹配结果相关度的信任指标和属性,以指示用于传播匹配的数据反馈和替代标识反馈。附图说明图I是将可操作属性归于个人身份的数据的方法的功能框图。图2是应用本专利技术的系统的框图。具体实施例方式标识是涉及个人身份的信息。标识包括一个查询的可确认属性,即为该查询的期望组成部分的数据组成部分,例如个人的姓名、地址和出生日期,或在一个查询中被特别定义的数据组成部分,例如通过文件的栏目头或在线应用的特定数据输入字段定义的元数据,其可与其他数据一起使用来唯一地标识个人。标记还可以包括先前没有遇到的属性和替代方法,在该替代方法中,数据值可以如此表示或推断为名字的替代拼写。反馈是关于匹配的信息,反映了匹配过程的推断质量,该推断质量按照查询和匹配候选之间的匹配的信任度的,用于匹配过程的每个数据字段的相对等级,和关于用于匹配查询的数据源的指示。终端用户可用该反馈确定被匹配主体满足最终用户的基于质量的标准的程度,并可基于该反馈驱动不同的操作和管理干预。图I是将可操作属性归于描述个人身份的数据的方法100的功能框图。简而言 之,方法100接收查询103,执行进程115、120、125、130和135以使来自查询103的数据和参考数据库110中的数据匹配,因此产生结果160。方法100利用处理规则104、属性表105和频率表109,并在临时步骤中,产生数据140、属性145、函数150和一个最好的候选155。在此进程115、120、125、130和135中的每一个关于其各自的总体操作被描述。进程115、120、125、130和135中的每一个可以被配置为一个独立的进程或作为从属进程的一个步骤。查询103是一个请求,该请求启动了对一个有关特定个人的信息的搜索。搜索基于查询103中所包含的标识,并在这方面,查询103包括多个数据元素,该数据元素按照数据字段依次包括关于个人的特定信息,该数据字段是在处理规则104和属性表105中预先定义的可确认属性的全部或子集,也可能包括有关个人的额外的和几乎无限制的标识。查询103可以由人类用户或者由自动化的进程提供给方法100。例如,查询100可以由使用在线数据录入屏幕处理的个人查询导出,或者从使用批处理机能力提交的文件中导出。查询103包括被方法100重新格式化为数据104的数据和方法100用来唯一地识别个体的数据。数据104可包括,例如,如名字、地址、出生日期、社会安全号码和其它形式的身份证明的数据。参考数据库110是一个关于个人信息的数据库,该数据库具有最大程度的个人和专业信息,即关于每个个人的已知属性。进程(未示出)被用于使数据获取资格,该数据其后将被分布在参考数据库110中,这随后可用于匹配目的。通过一组额外的进程(未示出),参考数据库110可被更新以包括已在参考数据库110中表示的关于个人的更多信息,及以包括额外的个人的信息。处理规则104包括自动化的且可重复的业务和元数据规则(迄今为止简称“规贝U” ),该规则基于标准化和归一化进程,其包括语义和数字消歧的逻辑以解释查询值,如不同的字组合(名/中间名/姓或姓/名/中间名,以及各种操作,如包括姓名属性的全部或子集的属性的其他重新排序)、寻址(独立地址或混合的地址组成部分)和不同的日期格式。元数据规则定义每个数据元素的信息,如(a)无论是否为文字的,即字母表中的字母,数字的或文字数字的,即文字和/或数字的,(b)允许的大小,及(C)格式。业务处理规则定义了基于一个或多个数据元素的值发生的活动,如,在后续操作或者计算运行前必须满足的条件。处理规则104中标准化进程的一个例子包括更换街道(street)名称的不同的版本,如“街(St.)”和“街(Strt) ”具有一个共同的一致的值如“街道”。处理规则104中归一化进程的一个例子包括如由“制(mnf)”作为统一的术语代替常见单词或缩写“制造(manufacturing) ”和“制造(mnfctring) ”以方便匹配。一个语义和消歧逻辑的例子包括将一个街道地址分为街道号码和街道名称的单独字段。属性表105是可确认属性的表格,即可以关联能识别个人的数据的数据字段。属性表105还包括定义可确认属性特征的元数据。元数据是关于数据的信息,即,它描述了数据的特性。例如,属性表105可列出的“名”的属性,并且可包含关于名的元数据,其指示名必须是一串字母字符。属性表105也可以使用数据140中的数据更新,以包括先前没有被确认的属性,预测加权和其他信息可以被定义到该属性。当参考数据库110更新时,属性表105中的值将被监测和调整。·频率表109表示在参考数据库110,具有特定属性的特定值的记录的数目。也就是说,频率表109是从参考数据库110生成的,以识别在参考数据库110中特定数据值的发生频率(F)。例如,参考数据库110可能出现5647个以“乔恩(Jon)”作为名,893个以“斯迈思(本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】2010.04.14 US 61/324,0861.一种方法,包括 接收查询以启动对关于特定个人的数据的搜索;基于所述查询确定策略,以搜索参考数据库;根据所述策略,在所述参考数据库搜索所述查询的匹配;以及输出所述匹配。2.如权利要求I所述的方法, 其中,所述的确定所述策略包括 从所述查询提取与所述搜索相关的属性; 为所述属性分配权重,从而生成加权属性,其中所述权重表示在找到所述查询的匹配中所述属性的效能;以及 基于所述加权属性,建立函数,并且 其中,所述搜索包括 基于所述函数,从所述参考数据库提取具有表示可能匹配所述查询的属性值的候选; 从所述候选中确定最佳候选;以及 返回所述最佳候选作为所述匹配。3.如权利要求2所述的方法, 其中,所述查询包括对所述属性的查询值,以及 其中,所述建立包括 修改所述权重为所述参考数据库中多个记录的函数,所述记录对所述属性具有所述查询值。4.如权利要求I所述的方法,还包括输出所述匹配为所述查询的合适匹配的信任度的指标。5.如权利要求4所述的方法,其中,所述指标指示用来形成关于所述信任度的评判的参考数据。6.一种系统,包括 处理器;以及 包含指令的存储器,当所述指令被所述处理器读取时,使所述处理器 接收查询以启动对关于特定个人的数据的搜索; 基于所述查询确定策略,以搜索参考数据库; 根据所述策略,在所述参考数据库搜索所述查询的匹配;以及 输出所述匹配。7.如权利要求6所述的系统, 其中,为了确定所述策略,所述指令使所述处理器 从所述查询提取与所述搜索相关的属性; 分配权重给所述属性,从而生成加权属性,其中,所述权重表示在找到所述查询的匹配中所述属性的效能;以及 基于所述加权属性建立函数,并且 其中,为了搜索所述参考数据库,所述指令使所述处理器 基于所述函数,从所述参考数...

【专利技术属性】
技术研发人员:安东尼·J·斯科里费希尼亚诺迈克尔·克莱恩
申请(专利权)人:邓白氏公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1