大规模异构数据摄取和用户解析制造技术

技术编号:22392538 阅读:37 留言:0更新日期:2019-10-29 07:59
本公开涉及用于高效组织大规模异构数据的数据关联、属性、注释和解释系统及相关方法。传入数据被接收并提取识别信息(“信息”)。多个维度减少函数被应用于信息,并基于函数结果将信息分组成相似信息的集合。对集合应用过滤规则以排除集合中的不匹配信息。然后,基于集合是否包含至少一个公共信息,将集合合并成信息组。公共链接可以与组中的信息关联。如果传入的数据包括与公共链接关联的识别信息,则传入的数据被分配公共链接。在一些实施例中,传入的数据不被改变而是被分配到域中。

【技术实现步骤摘要】
【国外来华专利技术】大规模异构数据摄取和用户解析
本公开涉及用于高效组织与用户关联的大规模异构数据元素的数据关联、属性、注释和解释系统及相关方法。该系统和方法可以被实现以提供对用户历史数据元素的实时访问,这在之前未实现。
技术介绍
信用事件可以被收集、编译和分析以便以信用报告的形式提供个人信用度,信用报告典型地包括多个信用属性,诸如信用分数、信用账户信息以及与用户的财务价值有关的其他信息。例如,信用分数是重要的,因为它可以在交易实体之间建立必要的信任级别。例如,金融机构,诸如贷方、信用卡提供商、银行、汽车经销商、经纪人等,可以基于信用分数更安全地进行商业交易。
技术实现思路
公开了与用于高效组织大规模异构数据的数据关联、属性、注释和解释系统及相关方法有关的系统和方法。一个一般方面包括一种用于为收集的事件信息确定帐户持有者标识的计算机系统,该计算机系统包括:一个或多个硬件计算机处理器;以及一个或多个存储设备,其配置为存储软件指令,软件指令配置为被一个或多个硬件计算机处理器执行以使计算机系统:从多个数据源接收与相应多个事件关联的多个事件信息;对于每个事件信息:访问包括数据源与标识符参数之间关联的数据存储,标识符参数至少包括对来自相应数据源的事件信息中包括的一个或多个标识符的指示;至少基于事件信息的数据源的标识符参数,确定如被访问的数据存储中指示的事件信息中包括的标识符;至少基于相应标识符参数从事件信息中提取标识符,其中,标识符的组合包括与唯一用户关联的唯一标识,访问多个散列函数,每个散列函数与标识符的组合关联;对于每个唯一标识,通过对多个散列函数求值计算多个散列值;基于唯一标识是否共享使用公共散列函数计算出的公共散列值,选择性地将唯一标识分组成与公共散列值关联的唯一标识集合;对于每个唯一标识集合:应用一个或多个匹配规则,一个或多个匹配规则包括用于在集合内比较唯一标识的标准;将满足一个或多个匹配规则的唯一标识确定为唯一标识匹配集合;对各自包括至少一个公共唯一标识的唯一标识匹配集合进行合并,以提供与其他合并集合不具有公共唯一标识的一个或多个合并集合;对于每个合并集合:确定反向个人标识符;将反向个人标识符与合并集合中的唯一标识中的每一个关联;对于每个唯一标识:识别与关联于唯一标识的标识符的组合中的至少一个关联的事件信,以及将反向个人标识符与识别的事件信息关联。该方面的其他实施例包括相应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,其各自被配置以执行方法的动作。实施方式可以包括以下特征中的一个或多个。计算机系统,其中,散列函数至少包括:第一散列函数,其对从事件信息中提取的至少第一标识符的部分和至少第二标识符的部分的第一组合求值;以及第二散列函数,其对从事件信息中提取的至少第一标识符的部分和至少第三标识符的部分的第二组合求值。计算机系统,其中,基于第一标识符或第二标识符中的一个或多个的标识符类型,选择第一散列函数。计算机系统,其中,第一标识符是用户的社会保险号码,第二标识符是用户的姓氏,并且第一组合是少于社会保险号码所有数字与少于用户姓氏所有字符的串接。计算机系统,其中,第一事件集合包括与第一散列值关联的多个事件,第二事件集合包括各自与第二散列值关联的多个事件。计算机系统,其中,标识符选自:名字、姓氏、中间名首字母、中间名、出生日期、社会保险号码、纳税人ID或国家ID。计算机系统,其中,计算机系统生成将反向个人标识符关联到合并集合中的剩余唯一标识中的每一个的反向映射,并将映射存储在数据存储中。计算机系统还包括:基于分配给剩余唯一标识的反向个人标识符,将反向个人标识符分配给包括剩余唯一标识的多个事件信息中的每一个。计算机系统,其中,散列函数包括位置敏感散列算法。计算机系统,其中,一个或多个匹配规则包括一个或多个标识解析规则,一个或多个标识解析规则将一个或多个集合中的u与外部数据库或CRM系统中的帐户持有者信息进行比较以识别针对一个或多个匹配规则的匹配。计算机系统,其中,标识解析规则包括指示帐户持有者信息与标识符之间匹配标准的标准。计算机系统,其中,合并集合包括,对于一个或多个集合中的每一个,重复以下过程:将集合中的每个唯一标识与集合中的另一个唯一标识配对以创建唯一标识对;确定对中的公共唯一标识;以及响应于确定公共唯一标识,对来自具有公共唯一标识的对中的非公共唯一标识分组,直到结果组内包含的唯一标识列表在结果组之间彼此互斥。计算机系统,其中,确定对中的公共唯一标识还包括对对中的唯一标识分类。所描述技术的实施方式可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。另一个一般方面包括一种计算机系统,其包括:一个或多个硬件计算机处理器,以及一个或多个存储设备,其配置为存储软件指令,软件指令配置为被一个或多个硬件计算机处理器执行以使计算机系统:从一个或多个数据源接收多个事件,其中,事件中的至少一些具有异构结构;存储异构结构的事件以供外部过程访问;对于每个数据源:至少部分地基于数据结构或来自数据源的数据识别域;访问与识别的域关联的词汇;以及对于每个事件信息:确定事件是否与词汇中的一些或全部匹配;将事件与相应域或词汇关联;基于确定的域将一个或多个标签与事件的部分关联。该方面的其他实施例包括相应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,其各自被配置以执行方法的动作。实施方式可以包括以下特征中的一个或多个。计算机系统包括软件指令,当被一个或多个硬件处理器执行时,配置为使计算机系统:接收针对第一域中的与用户关联的信息的请求;执行一个或多个域解析器,一个或多个域解析器配置为识别具有关联于第一域的一个或多个标签的与用户关联的事件;以及向请求实体提供识别的事件中的至少一些。计算机系统,其中,识别的事件中的至少一些仅包括识别的事件中与关联于第一域的一个或多个标签关联的部分。所描述技术的实施方式可以包括硬件、方法或过程、或计算机可访问介质上的计算机软件。另一个一般方面包括一种计算机化方法,包括,通过具有一个或多个计算机处理器的计算系统:从一个或多个数据源接收多个事件信息,多个事件信息具有异构数据结构;至少部分地基于数据源、与数据源关联的数据结构、或来自数据源的事件信息中的一个或多个,为一个或多个数据源中的每一个确定域;访问与确定的域关联的域词典,域词典包括域词汇、域语法和/或注释标准;基于注释标准使用域词汇注释来自确定的域的事件信息的一个或多个部分;接收针对事件信息或事件信息中包括的数据的请求;基于事件信息的一个或多个注释部分解释事件信息;以及基于解释提供请求的数据。该方面的其他实施例包括相应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,其各自被配置以执行方法的动作。附图说明现在将参考以下附图描述某些实施例。在所有附图中,附图标记可被重复使用以指示所引用的元素之间的对应关系。提供附图是为了说明在此描述的示例性实施例,而不是为了限制本公开或权利要求的范围。图1A示出了根据一些实施例的本公开的示例性信用数据系统。图1B示出了根据一些实施例的信用数据的示例性生成、流程和存储。图2A示出了根据一些实施例的顺序处理异构事件集合的示例。图2B示出了根据一些实施例的与各种应用或服务交互的示例性本文档来自技高网...

【技术保护点】
1.一种用于为收集的事件信息确定帐户持有者标识的计算机系统,所述计算机系统包括:一个或多个硬件计算机处理器;以及一个或多个存储设备,其配置为存储软件指令,所述软件指令配置为被所述一个或多个硬件计算机处理器执行以使所述计算机系统:从多个数据源接收与相应多个事件关联的多个事件信息;对于每个事件信息:访问包括数据源与标识符参数之间关联的数据存储,所述标识符参数至少包括对来自相应数据源的事件信息中包括的一个或多个标识符的指示;至少基于所述事件信息的数据源的标识符参数,确定如被访问的数据存储中指示的所述事件信息中包括的标识符;以及至少基于相应标识符参数从所述事件信息中提取标识符,其中,所述标识符的组合包括与唯一用户关联的唯一标识,访问多个散列函数,每个所述散列函数与标识符的组合关联;对于每个唯一标识,通过对所述多个散列函数求值计算多个散列值;基于唯一标识是否共享使用公共散列函数计算出的公共散列值,选择性地将唯一标识分组成与公共散列值关联的唯一标识集合;对于每个唯一标识集合:应用一个或多个匹配规则,所述一个或多个匹配规则包括用于在所述集合内比较唯一标识的标准;以及将满足所述一个或多个匹配规则的唯一标识确定为唯一标识匹配集合;对各自包括至少一个公共唯一标识的唯一标识匹配集合进行合并,以提供与其他合并集合不具有公共唯一标识的一个或多个合并集合;对于每个合并集合:确定反向个人标识符;以及将所述反向个人标识符与所述合并集合中的唯一标识中的每一个关联;对于每个唯一标识:识别与关联于所述唯一标识的所述标识符的组合中的至少一个关联的事件信息;以及将所述反向个人标识符与所述识别的事件信息关联。...

【技术特征摘要】
【国外来华专利技术】2017.01.31 US 62/452,7011.一种用于为收集的事件信息确定帐户持有者标识的计算机系统,所述计算机系统包括:一个或多个硬件计算机处理器;以及一个或多个存储设备,其配置为存储软件指令,所述软件指令配置为被所述一个或多个硬件计算机处理器执行以使所述计算机系统:从多个数据源接收与相应多个事件关联的多个事件信息;对于每个事件信息:访问包括数据源与标识符参数之间关联的数据存储,所述标识符参数至少包括对来自相应数据源的事件信息中包括的一个或多个标识符的指示;至少基于所述事件信息的数据源的标识符参数,确定如被访问的数据存储中指示的所述事件信息中包括的标识符;以及至少基于相应标识符参数从所述事件信息中提取标识符,其中,所述标识符的组合包括与唯一用户关联的唯一标识,访问多个散列函数,每个所述散列函数与标识符的组合关联;对于每个唯一标识,通过对所述多个散列函数求值计算多个散列值;基于唯一标识是否共享使用公共散列函数计算出的公共散列值,选择性地将唯一标识分组成与公共散列值关联的唯一标识集合;对于每个唯一标识集合:应用一个或多个匹配规则,所述一个或多个匹配规则包括用于在所述集合内比较唯一标识的标准;以及将满足所述一个或多个匹配规则的唯一标识确定为唯一标识匹配集合;对各自包括至少一个公共唯一标识的唯一标识匹配集合进行合并,以提供与其他合并集合不具有公共唯一标识的一个或多个合并集合;对于每个合并集合:确定反向个人标识符;以及将所述反向个人标识符与所述合并集合中的唯一标识中的每一个关联;对于每个唯一标识:识别与关联于所述唯一标识的所述标识符的组合中的至少一个关联的事件信息;以及将所述反向个人标识符与所述识别的事件信息关联。2.如权利要求1所述的计算机系统,其中,所述散列函数至少包括:第一散列函数,其对从事件信息中提取的至少第一标识符的部分和至少第二标识符的部分的第一组合求值;以及第二散列函数,其对从事件信息中提取的至少所述第一标识符的部分和至少第三标识符的部分的第二组合求值。3.如权利要求2所述的计算机系统,其中,基于所述第一标识符或所述第二标识符中的一个或多个的标识符类型,选择所述第一散列函数。4.如权利要求2所述的计算机系统,其中,所述第一标识符是所述用户的社会保险号码,所述第二标识符是所述用户的姓氏,并且所述第一组合是少于所述社会保险号码所有数字与少于所述用户姓氏所有字符的串接。5.如权利要求2所述的计算机系统,其中,第一事件集合包括与所述第一散列值关联的多个事件,第二事件集合包括各自与所述第二散列值关联的多个事件。6.如权利要求1所述的计算机系统,其中,所述标识符选自:名字、姓氏、中间名首字母、中间名、出生日期、社会保险号码、纳税人ID或国家ID。7.如权利要求1所述的计算机系统,其中,所述计算机系统生成将反向个人标识符关联到所述合并集合中的剩余唯一标识中的每一个的反向映射,并将所述映射存储在数据存储中。8.如权利要求1所述的计算机系统,还包括...

【专利技术属性】
技术研发人员:阿努库尔·雷杰普拉什安特·库马尔·萨海默文·拉利什里西·库马尔圣斯卡尔·萨海
申请(专利权)人:益百利信息解决方案公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1