【技术实现步骤摘要】
【国外来华专利技术】有效连接时间序列数据表的系统、方法和计算机程序产品
[0001]本公开大体上涉及连接和合并数据集,并且在非限制性实施例或方面,涉及有效连接时间序列数据表的系统、方法和计算机程序产品。
技术介绍
[0002]大数据表可能需要连接在一起(例如,模糊连接)以允许组合分析,并且提供比仅从一个数据表进行的洞察更有意义的洞察。连接大表可涉及基于列的匹配值和模糊连接的规则来标识主密钥列和并匹配两个数据表的记录(例如,行)。例如,除了账号之外,电子支付处理网络中的交易处理系统可能需要通过使用多个模糊规则(例如,即使交易金额有10%的偏差,也匹配支付授权和结算记录)来连接支付授权和结算数据的数据集。对于大数据表(例如,具有数百万个记录),连接过程可能计算缓慢且资源密集。一个或两个表都较大时,连接操作可能需要花费数小时、数天或更长范围的时间。
[0003]当连续填充此类大数据表时,例如,在数小时、数天等周期内持续接收新数据时,连接大数据表的计算效率低下的情况会尤其严重。这种类型的数据也可能在持续产生时按时间进行排序(例如,时间序列记录)。例如,电子支付处理网络中的交易处理系统可以每秒接收并生成大量交易数据,例如用于授权和结算支付交易的目的。如果交易服务提供商希望连接此类大数据表以用于分析目的,并且如果所述连接花费很长时间来执行(例如,处理记录比生成新数据的速率慢,连接的时间间隔比数据收集的间隔更长等),则可能难以及时地从此类连接中获得有意义的洞察。
[0004]如果连接列中特定值的记录数量存在实质性变化,计算效率低下的情 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法,包括:用至少一个处理器将第一表和第二表加载到至少一个存储器中,所述第一表包括一组第一时间序列记录,并且所述第二表包括一组第二时间序列记录,所述一组第一时间序列记录中的每个第一时间序列记录包括第一多个属性,并且所述一组第二时间序列记录中的每个第二时间序列记录包括第二多个属性,其中所述第一多个属性中的第一属性是具有目标类型,并且所述第二多个属性中的第二属性是具有所述目标类型,并且其中所述第一多个属性还包括每个第一时间序列记录的相应第一时间戳,并且所述第二多个属性还包括每个第二时间序列记录的相应第二时间戳;用至少一个处理器基于所述第一表的所述一组第一时间序列记录生成一组第一密钥值对并基于所述第二表的所述一组第二时间序列记录生成一组第二密钥值对,其中对于每个第一时间序列记录,所述一组第一密钥值对中的每个第一密钥值对包括基于所述第一属性的第一密钥和基于所述第一多个属性中的至少一个第一其它属性的第一值,并且其中对于每个第二时间序列记录,所述一组第二密钥值对中的每个第二密钥值对包括基于所述第二属性的第二密钥和基于所述第二多个属性中的至少一个第二其它属性的第二值;用至少一个处理器基于每个第一时间序列记录的所述第一密钥和所述相应第一时间戳对所述一组第一密钥值对进行排序;用至少一个处理器基于每个第二时间序列记录的所述第二密钥和所述相应第二时间戳对所述一组第二密钥值对进行排序;用至少一个处理器基于每个第一时间序列记录的所述相应第一时间戳和每个第二时间序列记录的所述相应第二时间戳将所述一组第一密钥值对与所述一组第二密钥值对交错;用至少一个处理器基于所述第二密钥、所述相应第二时间戳、所述第一密钥和所述相应第一时间戳将每个相应第二时间序列记录与相应第一时间序列记录按顺序进行匹配,以在连接表中形成相应连接记录;以及响应于将每个相应第二时间序列记录与所述相应第一时间序列记录进行匹配,用至少一个处理器从所述至少一个存储器中删除所述相应第二时间序列记录。2.根据权利要求1所述的方法,其中在多个服务器节点中的一个上执行每个相应第二时间序列记录与相应第一时间序列记录的所述匹配,并且其中所述多个服务器节点中的每个节点执行独立映射器,以与所述多个服务器节点中的每个其它节点并行地对所述一组第一时间序列记录中的第一时间序列记录的不同子集进行匹配。3.根据权利要求2所述的方法,其中所述第一表和所述第二表中的至少一个是偏斜的,所述方法还包括:用至少一个处理器并且在生成所述一组第一密钥值对之前复制所述一组第一时间序列记录中的每个第一时间序列记录预定次数,以产生针对所述第一时间序列记录的多个相同记录,由此与所述预定次数成比例地增加所述一组第一时间序列记录的大小;并且其中每个相应第二时间序列记录与相应第一时间序列记录的所述匹配还包括将所述每个相应第二时间序列记录与针对所述相应第一时间序列记录的所述多个相同记录中的一个时间序列记录随机进行匹配。4.根据权利要求3所述的方法,其中复制每个第一时间序列记录的所述预定次数为至
少十次。5.根据权利要求3所述的方法,其中所述多个相同记录的数目与所述多个服务器节点的数目相同,其中所述多个相同记录中的每个相同记录被发送到所述多个服务器节点的不同映射器,并且其中所述每个相应第二时间序列记录的随机匹配还包括随机选择所述多个服务器节点的映射器。6.根据权利要求1所述的方法,其中所述一组第一时间序列记录包括由交易处理系统处理的多个交易授权记录,并且其中所述一组第二时间序列记录包括由所述交易处理系统处理的多个交易结算记录。7.根据权利要求1所述的方法,其中紧接在所述每个相应第二时间序列记录与所述相应第一时间序列记录匹配之后实时进行从所述至少一个存储器中删除每个相应第二时间序列记录。8.一种包括至少一个服务器的系统,所述至少一个服务器包括至少一个处理器,其中所述至少一个服务器被编程或配置成:将第一表和第二表加载到至少一个存储器中,所述第一表包括一组第一时间序列记录,并且所述第二表包括一组第二时间序列记录,所述一组第一时间序列记录中的每个第一时间序列记录包括第一多个属性,并且所述一组第二时间序列记录中的每个第二时间序列记录包括第二多个属性,其中所述第一多个属性中的第一属性是具有目标类型,并且所述第二多个属性中的第二属性是具有所述目标类型,并且其中所述第一多个属性还包括每个第一时间序列记录的相应第一时间戳,并且所述第二多个属性还包括每个第二时间序列记录的相应第二时间戳;基于所述第一表的所述一组第一时间序列记录生成一组第一密钥值对并基于所述第二表的所述一组第二时间序列记录生成一组第二密钥值对,其中对于每个第一时间序列记录,所述一组第一密钥值对中的每个第一密钥值对包括基于所述第一属性的第一密钥和基于所述第一多个属性中的至少一个第一其它属性的第一值,并且其中对于每个第二时间序列记录,所述一组第二密钥值对中的每个第二密钥值对包括基于所述第二属性的第二密钥和基于所述第二多个属性中的至少一个第二其它属性的第二值;基于每个第一时间序列记录的所述第一密钥和所述相应第一时间戳对所述一组第一密钥值对进行排序;基于每个第二时间序列记录的所述第二密钥和所述相应第二时间戳对所述一组第二密钥值对进行排序;基于每个第一时间序列记录的所述相应第一时间戳和每个第二时间序列记录的所述相应第二时间戳将所述一组第一密钥值对与所述一组第二密钥值对交错;基于所述第二密钥、所述相应第二时间戳、所述第一密钥和所述相应第一时间戳将每个相应第二时间序列记录与相应第一时间序列记录按顺序进行匹配,以在连接表中形成相应连接记录;以及响应于将每个相应第二时间序列记录与所述相应第一时间序列记录进行匹配,从所述至少一个存储器...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。