分析用于匹配数据记录的系统的方法和系统技术方案

技术编号:5443236 阅读:183 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开的实施例提供一种用于分析身份枢纽的系统和方法。具体来说,用户可以连接到身份枢纽,加载初始数据记录组,在本地创建和/或编辑身份枢纽配置,通过一组分析工具分析和/或确认该配置,并且将确认的配置远程设置到身份枢纽实例,该组分析工具包括实体分析工具、数据分析工具、分组分析工具和链接分析工具。在一些实施例中,通过图形用户界面,这些分析工具使用户能够在身份枢纽操作时实时分析并修改身份枢纽的配置,以确保数据质量并增强系统性能。

【技术实现步骤摘要】
【国外来华专利技术】
本公开一般涉及将数据记录关联,并且尤其涉及识别可能包含关于同一实体的信 息的数据记录,使得这些数据记录可以关联。更具体来说,本文公开的实施例可以涉及用于 数据记录的识别和关联的系统的分析,包括与这种系统的性能或配置有关的分析。
技术介绍
现如今,绝大多数企业保留与它们的操作的各方面有关的大量数据,如存货、客 户、产品等。关于例如人、产品、部件或任何其它物体的实体的数据可以用数字格式保存在 例如计算机数据库等数据存储装置中。这些计算机数据库允许关于实体的数据被快速访 问,并且允许该数据与关于同一实体的数据的其它相关条目交叉参考。该数据库还允许人 们查询该数据库以找到属于某一特定实体的数据记录,使得来自不同数据存储装置的属于 同一实体的数据记录可以相互关联。然而,数据存储装置有几个局限,其可能限制在数据存储装置内找到关于某一实体的正确数据的能力。数据存储装置内的实际数据只能像输入该数据的人或者原始数据源 那样准确。因此,在将数据输入到数据存储装置的过程中的错误可能导致在该数据库中对 关于某一实体的数据的搜索错过关于该实体的相关数据,因为例如人的姓被拼错或者社会 保险号输入错误等。许许多多这类问题可以想象为针对已经在数据库内有记录的实体可 能创建两个分开的记录,使得多个数据记录可包含关于同一实体的信息,但是例如包含在 两个数据记录中的名称或标识号可能不同,从而可能难以将涉及同一实体的数据记录相互 关联。 对于操作包含大量数据记录的一个或多个数据存储装置的企业来说,在各数据库 内或当中定位关于某一特定实体的相关信息的能力是非常重要的,但是不容易获得。另外, 在任意信息源输入数据(包括无限制地产生同一实体的一个以上的数据记录)过程中的任 何错误可能导致在数据库中搜索特定实体的数据时错过相关数据。另外,在涉及多个信息 源的情况中,每个信息源可以具有略微不同的数据语法(syntax)或格式,这可进一步使在 数据库中寻找数据的处理复杂化。在医疗保健领域中需要正确识别涉及某一数据记录的实 体并定位涉及某一实体的所有数据记录的例子是与特定的医疗保健组织相关的多个不同 医院可具有包含关于它们的病人信息的一个或多个信息源,并且医疗保健组织将来自每个 医院的信息收集到主数据库中。必须将来自所有信息源的属于同一病人的数据记录链接以 使得能够在所有医院记录中搜索某一特定病人的信息。有几个问题限制了在这种数据库中找到关于某一实体的全部相关数据的能力。作 为从一个或多个信息源接收到独立的数据记录的结果,针对某一特定实体可能存在多个数 据记录,这导致了可称为数据分片的问题。在数据分片的情况下,对主数据库的询问可能无 法取回关于某一特定实体的所有相关信息。另外,如上所述,由于在数据输入期间发生的拼 写错误,这导致数据不可访问的问题,该询问可能错过关于某一实体的一些相关信息。另 夕卜,大数据库可能包含表现为相同的数据记录,如姓为Smith名为Jim的人的多个记录。对 数据库的询问将取回所有这些数据记录并且对数据库进行该询问的人可能经常随机选择 所取回的数据记录中的一个,其可能是错误的数据记录。该人不可能经常试图确定哪一个 记录是适当的。这可导致即使在正确的数据记录可以获得时也取回错误实体的数据记录。 这些问题限制了在数据库内定位某一特定实体的信息的能力。为了减少必须再检查的数据量,并且防止用户选取错误的数据记录,还希望将来 自多个信息源的可能包含关于同一实体的信息的数据记录标识并关联。存在用于定位数据 库中数据记录副本并删除那些数据记录副本的传统系统,但是这些系统只能定位彼此基本 一致的数据记录。因此,这些传统系统不能确定例如姓略微不同的两个数据记录是否仍然 包含关于同一实体的信息。另外,这些传统系统不尝试从多个不同信息源索引数据记录,定 位包含关于同一实体的信息的一个或多个信息源内的数据记录,并将这些数据记录链接在 一起。因此,希望能够将来自多个信息源的属于同一实体的数据记录关联,而不管这些数据 记录的属性之间的差别,并且能够以内聚(cohesive)的方式组合并呈现来自这些不同数 据记录的信息。然而,在实践中,提供来自多个信息源的信息的准确的综合意见可能是极难 的。
技术实现思路
由于来自多个不同源的数据记录在格式和它们包含的数据二者上可能不相同,所以配置数据处理系统可能是个艰巨的任务。这些困难部分是由于配置过程可能是需要关于 用于关联数据记录的系统的结构和能力方面的大量专业知识的人力密集任务,另外,还需 要对细节的高度分析和密切注意以确保用于将数据记录关联的算法的最终配置产生所希望的结果。这种系统用户的单独需要可能进一步加剧这些困难。例如,在某些行业中,如医疗 保健行业,不将数据记录错误地相互关联(称为假阳性)可能是重要的,而其它较不重要的 行业可能较低关注错误关联并且更关注可能属于同一实体的数据记录的关联以避免应该 关联的数据记录没有关联的情况(称为假阴性)。事实上,对于允许的假阳性或假阴性的数 量,某些用户可能有严格的要求或指导。由于该系统的至少某些部分可以使用数据样本组来配置或调整,所以当应用于所有 数据或数据的较大采样时基于该初始数据样本组建立的系统的配置可能不产生希望的结果。然而,可能难以确定该系统关于某个配置是如何运行的,并且由于该系统使用的 算法可能很复杂,所以即使可以确定该系统如何运行,可能也难以修正该配置以实现希望 的结果。因此,需要用于分析用来将数据记录关联的系统运行使得可以根据用户需要配置 该系统的系统和方法。本文公开的实施例提供用于分析和呈现与用于索引或关联数据记录的系统有关 的性能参数的系统和方法。这些系统和方法可以提供用于统计分析和呈现与Initiate Systems公司的Identity Hub 的配置或性能有关的数据的有用软件工具。在本公开中引 用的美国专利申请中可以找到Initiate Identity Hub 的示例实施例。在一些实施例中,这些工具包括分组(bucket)分析工具、数据分析工具、实体分 析工具和链接分析或阈值分析工具。更具体来说,在一个实施例中,分组分析工具可操作用 于分析和呈现与身份枢纽(identity hub)内的候选产生和选择(即,分组(bucketing))有 关的数据。在一个实施例中,实体分析工具可操作用于分析和呈现与数据记录的关联有关 的数据。在一个实施例中,链接分析工具可操作用于分析和呈现与用于链接数据记录和它 们对系统的影响的各种阈值水平的设置有关的数据。所述工具还可以提供预测能力使得用 户可以提交可能的参数值并且该工具可以计算和预测该值对系统的操作或性能上的影响。在一些实施例中,可以呈现图形用户界面以使用所述多种工具,使得与身份枢纽 的配置或性能相关的数据可以图形地呈现给用户并且向用户提供与分析工具相互作用的 能力以获得希望的信息。该图形用户界面还可以与另一个图形用户界面一道提供,或者包 括其用于身份枢纽的至少一部分配置的功能,使得用户可以改变身份枢纽的配置并分析这 种配置的结果。这些界面可以包括例如可通过网络浏览器访问的一个或多个网页。这些网 页可以例如采用HTML或XHTML格式,并且可以提供通过超文本链接到其它网页的导航。用 户可以从本地计算机本文档来自技高网
...

【技术保护点】
一种用于分析用来匹配数据记录的系统的方法,包括:使用初始数据记录组来产生所述系统的配置;分析根据与所述系统的所述配置相关联的分组策略基于所述初始数据记录组或其子组创建的分组;分析所述分组对所述系统的性能的影响;以及相应地改变所述分组策略。

【技术特征摘要】
【国外来华专利技术】US 2007-9-28 60/997,038一种用于分析用来匹配数据记录的系统的方法,包括使用初始数据记录组来产生所述系统的配置;分析根据与所述系统的所述配置相关联的分组策略基于所述初始数据记录组或其子组创建的分组;分析所述分组对所述系统的性能的影响;以及相应地改变所述分组策略。2.根据权利要求1所述的方法,其中所述改变所述分组策略还包括编辑在创建所述分 组时使用的算法或者改变与所述算法相关联的一个或多个参数值。3.根据权利要求2所述的方法,其中所述算法与实体类型相关联。4.根据权利要求3所述的方法,还包括分析被分类为具有所述系统中的所述实体类型 的实体。5.根据权利要求4所述的方法,其中所述分析所述实体还包括分析实体大小分布、按 大小分析所述实体、按组成分析所述实体、分析与所述实体相关联的分值分布、分析与所述 实体相关联的成员比较或者它们的组合。6.根据权利要求1所述的方法,还包括分析所述初始数据记录组。7.根据权利要求6所述的方法,其中所述分析所述初始数据记录组还包括分析所述初 始数据记录组的属性的有效性。8.根据权利要求1所述的方法,其中所述分析所述分组还包括分析与所述分组相关联 的统计、分析分组大小分布、按大小分析所述分组、按组成分析所述分组、分析批量交叉匹 配比较分布、按分组计数分析成员、分析成员分组值、分析成员分组频率、分析成员比较分 布或者它们的组合。9.根据权利要求1所述的方法,还包括分析与所述初始数据记录组相关联的错误率, 其中所述错误率包括记录错误率和人错误率。10.根据权利要求1所述的方法,其中所述系统的所述配置包括办事员再检查阈值和 自动链接阈值,并且其中所述办事员再检查阈值和所述自动链接阈值表示在匹配所述初始 数据记录组时所述系统对假阳性率和假阴性率的容忍度,还包括分析所述办事员再检查阈 值和所述自动链接阈值。11.一种存储可由处理器执行的计算机指令的计算机可读存储介质,其中当由所述处 理器执行所述计算机指令时,所述计算机指令使计算机使用初始数据记录组产生系统的配置;根据与所述系统的所述配置相关联的分组策略基于所述初始数据记录组或其子组创 建分组;分析所述分组和所述分组对所述系统的性能的影响;以及使用户能够改变所述分组策略。12.根据权利要求11所述的计算机可读存储介质,其中当由所述处理器执行所述计算 机指令时,所述计算机指令还使所述计算机显示算法编辑器,所述用户能通过该算法编辑 器编辑在创建所述分组时使用的算法。13.根据权利要求11所述的计算机可读存储介质,其中所述分组策略与实体类型相关 联,并且其中当由所述处理器执行所述计算机指令时,所述计算机指令还使所述计算机显示实体分析工具,所述用户能通过该实体分析工具分析被分类为具有所述系统中的所述实 体类型的实体。14.根据权利要求11所述的计算机可读存储介质,其中当由所述处理...

【专利技术属性】
技术研发人员:G戈登博格S舒玛彻J伍德斯
申请(专利权)人:启动系统公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1