有效连接时间序列数据表的系统、方法和计算机程序产品技术方案

技术编号:39598871 阅读:13 留言:0更新日期:2023-12-03 19:57
描述一种有效连接时间序列数据表的系统、方法和计算机程序产品。所述方法包括将第一表和第二表加载到存储器中,并且基于一组第一时间序列记录生成一组第一密钥值对并基于一组第二时间序列记录生成一组第二密钥值对。所述方法还包括对所述一组第一密钥值对和所述一组第二密钥值对进行排序。所述方法还包括将所述一组第一密钥值对与所述一组第二密钥值对交错,并将各组时间序列记录按顺序进行匹配以形成连接表。所述方法还包括响应于将每个相应第二时间序列记录与所述相应第一时间序列记录进行匹配,从至少一个存储器中删除所述相应第二时间序列记录。第二时间序列记录。第二时间序列记录。

【技术实现步骤摘要】
【国外来华专利技术】有效连接时间序列数据表的系统、方法和计算机程序产品


[0001]本公开大体上涉及连接和合并数据集,并且在非限制性实施例或方面,涉及有效连接时间序列数据表的系统、方法和计算机程序产品。

技术介绍

[0002]大数据表可能需要连接在一起(例如,模糊连接)以允许组合分析,并且提供比仅从一个数据表进行的洞察更有意义的洞察。连接大表可涉及基于列的匹配值和模糊连接的规则来标识主密钥列和并匹配两个数据表的记录(例如,行)。例如,除了账号之外,电子支付处理网络中的交易处理系统可能需要通过使用多个模糊规则(例如,即使交易金额有10%的偏差,也匹配支付授权和结算记录)来连接支付授权和结算数据的数据集。对于大数据表(例如,具有数百万个记录),连接过程可能计算缓慢且资源密集。一个或两个表都较大时,连接操作可能需要花费数小时、数天或更长范围的时间。
[0003]当连续填充此类大数据表时,例如,在数小时、数天等周期内持续接收新数据时,连接大数据表的计算效率低下的情况会尤其严重。这种类型的数据也可能在持续产生时按时间进行排序(例如,时间序列记录)。例如,电子支付处理网络中的交易处理系统可以每秒接收并生成大量交易数据,例如用于授权和结算支付交易的目的。如果交易服务提供商希望连接此类大数据表以用于分析目的,并且如果所述连接花费很长时间来执行(例如,处理记录比生成新数据的速率慢,连接的时间间隔比数据收集的间隔更长等),则可能难以及时地从此类连接中获得有意义的洞察。
[0004]如果连接列中特定值的记录数量存在实质性变化,计算效率低下的情况也可能加剧。例如,在电子支付处理网络中,一些商家在一个月内可能有几百笔交易,而其它商家可能有数百万多笔交易。这种情况也称为数据偏斜。使用多个处理器来连接大小不相等的表可能导致某些处理器执行大部分连接过程,而其它处理器执行一小部分连接过程。因此,只有部分连接过程是有效并行的,并且总计算时间可能不期望地延长,直到超负荷处理器完成处理其较大部分为止。
[0005]因此,本领域需要提供包括大数据表、时间序列数据表和/或大小不相等的偏斜数据表在内的数据表的有效模糊和非模糊连接的技术解决方案。需要减少连接此类数据表时的总体计算时间,以改进依赖于此类连接数据表的计算机系统的功能。

技术实现思路

[0006]根据一些非限制性实施例或方面,提供了克服上文所述的一些或全部缺陷的有效连接时间序列数据表的系统、方法和计算机程序产品。
[0007]根据一些非限制性实施例或方面,提供了一种有效连接时间序列数据表的计算机实施的方法。所述方法包括用至少一个处理器将第一表和第二表加载到至少一个存储器中,所述第一表包括一组第一时间序列记录,并且所述第二表包括一组第二时间序列记录,所述一组第一时间序列记录中的每个第一时间序列记录包括第一多个属性,并且所述一组
第二时间序列记录中的每个第二时间序列记录包括第二多个属性,其中所述第一多个属性中的第一属性是具有目标类型,并且所述第二多个属性中的第二属性是具有所述目标类型,并且其中所述第一多个属性还包括每个第一时间序列记录的相应第一时间戳,并且所述第二多个属性还包括每个第二时间序列记录的相应第二时间戳。所述方法还包括用至少一个处理器基于所述第一表的所述一组第一时间序列记录生成一组第一密钥值对并基于所述第二表的所述一组第二时间序列记录生成一组第二密钥值对,其中对于每个第一时间序列记录,所述一组第一密钥值对中的每个第一密钥值对包括基于所述第一属性的第一密钥和基于所述第一多个属性中的至少一个第一其它属性的第一值,并且其中对于每个第二时间序列记录,所述一组第二密钥值对中的每个第二密钥值对包括基于所述第二属性的第二密钥和基于所述第二多个属性中的至少一个第二其它属性的第二值。所述方法还包括用至少一个处理器基于每个第一时间序列记录的所述第一密钥和所述相应第一时间戳对所述一组第一密钥值对进行排序。所述方法还包括用至少一个处理器基于每个第二时间序列记录的所述第二密钥和所述相应第二时间戳对所述一组第二密钥值对进行排序。所述方法还包括用至少一个处理器基于每个第一时间序列记录的所述相应第一时间戳和每个第二时间序列记录的所述相应第二时间戳将所述一组第一密钥值对与所述一组第二密钥值对交错。所述方法还包括用至少一个处理器基于所述第二密钥、所述相应第二时间戳、所述第一密钥和所述相应第一时间戳将每个相应第二时间序列记录与相应第一时间序列记录按顺序进行匹配,以在连接表中形成相应连接记录。所述方法还包括响应于将每个相应第二时间序列记录与所述相应第一时间序列记录进行匹配,用至少一个处理器从所述至少一个存储器中删除所述相应第二时间序列记录。
[0008]在一些非限制性实施例或方面,可在多个服务器节点中的一个上执行每个相应第二时间序列记录与相应第一时间序列记录的所述匹配,并且所述多个服务器节点中的每个节点可执行独立映射器,以与所述多个服务器节点中的每个其它节点并行地对所述一组第一时间序列记录中的第一时间序列记录的不同子集进行匹配。
[0009]在一些非限制性实施例或方面,所述第一表和所述第二表中的至少一个可以是偏斜的。所述方法还可包括用至少一个处理器并且在生成所述一组第一密钥值对之前复制所述一组第一时间序列记录中的每个第一时间序列记录预定次数,以产生针对所述第一时间序列记录的多个相同记录,由此与所述预定次数成比例地增加所述一组第一时间序列记录的大小。每个相应第二时间序列记录与相应第一时间序列记录的所述匹配还可包括将所述每个相应第二时间序列记录与针对所述相应第一时间序列记录的所述多个相同记录中的一个时间序列记录随机进行匹配。
[0010]在一些非限制性实施例或方面,复制每个第一时间序列记录的所述预定次数可以为至少十次。所述多个相同记录的数目可与所述多个服务器节点的数目相同。所述多个相同记录中的每个相同记录可被发送到所述多个服务器节点的不同映射器。所述每个相应第二时间序列记录的随机匹配还可包括随机选择所述多个服务器节点的映射器。
[0011]在一些非限制性实施例或方面,所述一组第一时间序列记录可包括由交易处理系统处理的多个交易授权记录。所述一组第二时间序列记录可包括由所述交易处理系统处理的多个交易结算记录。
[0012]在一些非限制性实施例或方面,可紧接在所述每个相应第二时间序列记录与所述
相应第一时间序列记录匹配之后实时进行从所述至少一个存储器中删除每个相应第二时间序列记录。
[0013]根据一些非限制性实施例或方面,提供了一种有效连接时间序列数据表的系统。所述系统包括至少一个服务器,所述至少一个服务器包括至少一个处理器。所述至少一个服务器被编程或配置成将第一表和第二表加载到至少一个存储器中,所述第一表包括一组第一时间序列记录,并且所述第二表包括一组第二时间序列记录,所述一组第一时间序列记录中的每个第一时间序列记录包括第一多个属性,并且所述一组第二时间序列记录中的每个第二时间序列记录包括第二多个属性,其中所述第一多个属性中的第一属性是具有目标类型,并且所述第二多个属性中的第二属性是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法,包括:用至少一个处理器将第一表和第二表加载到至少一个存储器中,所述第一表包括一组第一时间序列记录,并且所述第二表包括一组第二时间序列记录,所述一组第一时间序列记录中的每个第一时间序列记录包括第一多个属性,并且所述一组第二时间序列记录中的每个第二时间序列记录包括第二多个属性,其中所述第一多个属性中的第一属性是具有目标类型,并且所述第二多个属性中的第二属性是具有所述目标类型,并且其中所述第一多个属性还包括每个第一时间序列记录的相应第一时间戳,并且所述第二多个属性还包括每个第二时间序列记录的相应第二时间戳;用至少一个处理器基于所述第一表的所述一组第一时间序列记录生成一组第一密钥值对并基于所述第二表的所述一组第二时间序列记录生成一组第二密钥值对,其中对于每个第一时间序列记录,所述一组第一密钥值对中的每个第一密钥值对包括基于所述第一属性的第一密钥和基于所述第一多个属性中的至少一个第一其它属性的第一值,并且其中对于每个第二时间序列记录,所述一组第二密钥值对中的每个第二密钥值对包括基于所述第二属性的第二密钥和基于所述第二多个属性中的至少一个第二其它属性的第二值;用至少一个处理器基于每个第一时间序列记录的所述第一密钥和所述相应第一时间戳对所述一组第一密钥值对进行排序;用至少一个处理器基于每个第二时间序列记录的所述第二密钥和所述相应第二时间戳对所述一组第二密钥值对进行排序;用至少一个处理器基于每个第一时间序列记录的所述相应第一时间戳和每个第二时间序列记录的所述相应第二时间戳将所述一组第一密钥值对与所述一组第二密钥值对交错;用至少一个处理器基于所述第二密钥、所述相应第二时间戳、所述第一密钥和所述相应第一时间戳将每个相应第二时间序列记录与相应第一时间序列记录按顺序进行匹配,以在连接表中形成相应连接记录;以及响应于将每个相应第二时间序列记录与所述相应第一时间序列记录进行匹配,用至少一个处理器从所述至少一个存储器中删除所述相应第二时间序列记录。2.根据权利要求1所述的方法,其中在多个服务器节点中的一个上执行每个相应第二时间序列记录与相应第一时间序列记录的所述匹配,并且其中所述多个服务器节点中的每个节点执行独立映射器,以与所述多个服务器节点中的每个其它节点并行地对所述一组第一时间序列记录中的第一时间序列记录的不同子集进行匹配。3.根据权利要求2所述的方法,其中所述第一表和所述第二表中的至少一个是偏斜的,所述方法还包括:用至少一个处理器并且在生成所述一组第一密钥值对之前复制所述一组第一时间序列记录中的每个第一时间序列记录预定次数,以产生针对所述第一时间序列记录的多个相同记录,由此与所述预定次数成比例地增加所述一组第一时间序列记录的大小;并且其中每个相应第二时间序列记录与相应第一时间序列记录的所述匹配还包括将所述每个相应第二时间序列记录与针对所述相应第一时间序列记录的所述多个相同记录中的一个时间序列记录随机进行匹配。4.根据权利要求3所述的方法,其中复制每个第一时间序列记录的所述预定次数为至
少十次。5.根据权利要求3所述的方法,其中所述多个相同记录的数目与所述多个服务器节点的数目相同,其中所述多个相同记录中的每个相同记录被发送到所述多个服务器节点的不同映射器,并且其中所述每个相应第二时间序列记录的随机匹配还包括随机选择所述多个服务器节点的映射器。6.根据权利要求1所述的方法,其中所述一组第一时间序列记录包括由交易处理系统处理的多个交易授权记录,并且其中所述一组第二时间序列记录包括由所述交易处理系统处理的多个交易结算记录。7.根据权利要求1所述的方法,其中紧接在所述每个相应第二时间序列记录与所述相应第一时间序列记录匹配之后实时进行从所述至少一个存储器中删除每个相应第二时间序列记录。8.一种包括至少一个服务器的系统,所述至少一个服务器包括至少一个处理器,其中所述至少一个服务器被编程或配置成:将第一表和第二表加载到至少一个存储器中,所述第一表包括一组第一时间序列记录,并且所述第二表包括一组第二时间序列记录,所述一组第一时间序列记录中的每个第一时间序列记录包括第一多个属性,并且所述一组第二时间序列记录中的每个第二时间序列记录包括第二多个属性,其中所述第一多个属性中的第一属性是具有目标类型,并且所述第二多个属性中的第二属性是具有所述目标类型,并且其中所述第一多个属性还包括每个第一时间序列记录的相应第一时间戳,并且所述第二多个属性还包括每个第二时间序列记录的相应第二时间戳;基于所述第一表的所述一组第一时间序列记录生成一组第一密钥值对并基于所述第二表的所述一组第二时间序列记录生成一组第二密钥值对,其中对于每个第一时间序列记录,所述一组第一密钥值对中的每个第一密钥值对包括基于所述第一属性的第一密钥和基于所述第一多个属性中的至少一个第一其它属性的第一值,并且其中对于每个第二时间序列记录,所述一组第二密钥值对中的每个第二密钥值对包括基于所述第二属性的第二密钥和基于所述第二多个属性中的至少一个第二其它属性的第二值;基于每个第一时间序列记录的所述第一密钥和所述相应第一时间戳对所述一组第一密钥值对进行排序;基于每个第二时间序列记录的所述第二密钥和所述相应第二时间戳对所述一组第二密钥值对进行排序;基于每个第一时间序列记录的所述相应第一时间戳和每个第二时间序列记录的所述相应第二时间戳将所述一组第一密钥值对与所述一组第二密钥值对交错;基于所述第二密钥、所述相应第二时间戳、所述第一密钥和所述相应第一时间戳将每个相应第二时间序列记录与相应第一时间序列记录按顺序进行匹配,以在连接表中形成相应连接记录;以及响应于将每个相应第二时间序列记录与所述相应第一时间序列记录进行匹配,从所述至少一个存储器...

【专利技术属性】
技术研发人员:M
申请(专利权)人:维萨国际服务协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1