【技术实现步骤摘要】
多数据流的数据拼接方法、装置、电子设备和存储介质
[0001]本申请实施例涉及互联网
,尤其涉及大数据处理
,具体涉及了一种多数据流的数据拼接方法、装置、电子设备和存储介质。
技术介绍
[0002]数据拼接是指两种以上的不同数据,由于业务上关联,通过某些同类属性的关键字值合并为一份数据。
[0003]现有技术中,通常采用对称哈希联接(symmetric hash join)算法对多个数据流的数据进行拼接。在采用symmetric hash join算法对多个数据流的数据进行拼接时,当多个数据流中的任意一条数据流有数据到来时,均会触发数据拼接,比如两条数据流中数据流1的数据1到来时,会去缓存的数据流2中数据中查找与数据1相匹配的数据,并将查找到的数据与数据1进行拼接;同样的,数据流2的数据2到来时,会去缓存的数据流1中数据中查找与数据2相匹配的数据,并将查找到的数据与数据2进行拼接。
[0004]然而现有的数据拼接方法仍存在一定的不足:在数据流的数据量比较大的情况下,采用上述现有数据拼接方法,触发数 ...
【技术保护点】
【技术特征摘要】
1.一种多数据流的数据拼接方法,其特征在于,包括:当多数据流中第一数据流的第一数据到达时,确定所述第一数据流是否是指定的拼接触发数据流;其中,所述多数据流中的部分数据流被预先指定为拼接触发数据流;在确定所述第一数据流是指定的拼接触发数据流时,从缓存的第二数据流的数据中查找与所述第一数据匹配的第二数据,以将第一数据与第二数据进行拼接。2.根据权利要求1所述的方法,其特征在于,在确定所述第一数据流是指定的拼接触发数据流之后、从缓存的第二数据流的数据中查找与所述第一数据匹配的第二数据之前,所述方法还包括:确定所述第二数据流中与所述第一数据匹配的第二数据是否已到达;若是,则触发执行从缓存的第二数据流的数据中查找与所述第一数据匹配的第二数据的操作,否则,将第一数据进行缓存。3.根据权利要求1所述的方法,其特征在于,在确定所述第一数据流是指定的拼接触发数据流之后、从缓存的第二数据流的数据中查找与所述第一数据匹配的第二数据之前,所述方法还包括:确定所述第一数据是否是延迟时间在允许范围内的数据;若是,则触发执行从缓存的第二数据流的数据中查找与所述第一数据匹配的第二数据的操作,否则,将第一数据进行缓存。4.根据权利要求2所述的方法,其特征在于,确定所述第二数据流中与所述第一数据匹配的第二数据是否已到达,包括:获取所述第一数据中携带的第二数据流的事件时间,以及第二数据流的当前高水位值;其中,第二数据流的当前高水位值是指当前第二数据流的所有已到达的各数据,所携带的第二数据流的事件时间中的最大事件时间;若所述第一数据中携带的第二数据流的事件时间不大于所述第二数据流的当前高水位值,则确定所述第二数据流中与所述第一数据匹配的第二数据已到达,否则,确定所述第二数据流中与所述第一数据匹配的第二数据未到达。5.根据权利要求3所述的方法,其特征在于,确定所述第一数据是否是延迟时间在允许范围内的数据,包括:获取所述第一数据中携带的第一数据流的事件时间以及所述第一数据流的当前低水位值;其中,第一数据流的当前低水位值是指当前第一数据流的所有已到达的各数据,所携带的第一数据流的事件时间中的最小事件时间;若所述第一数据中携带的第一数据流的事件时间,不小于所述第一数据流的低水位值与第一数据流的允许延迟时间的差值,则确定所述第一数据是延迟时间在允许范围内的数据,否则,确定所述第一数据不是延迟时间在允许范围内的数据。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:若未从缓存的...
【专利技术属性】
技术研发人员:程怡,石然,朱小力,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。