一种分布式环境下数据流式归并方法技术

技术编号:36707713 阅读:27 留言:0更新日期:2023-03-01 09:31
本发明专利技术公开了数据处理技术领域的一种分布式环境下数据流式归并方法,具体包括以下步骤:S1:通过各环境下的各第一流式归并引擎获取处理数据的集合,利用第一匹配规则对处理数据进行规则匹配,如果所述处理数据命中第一匹配规则,将所述处理数据输出至第二匹配规则内;S2:利用第二流式归并引擎获取命中第一匹配规则的处理数据,将所述处理数据通过第二匹配规则进行规则匹配;S3:将命中第二匹配规则的处理数据存入内存,将未命中第一匹配规则和第二匹配规则的处理数据输出到外部存储系统,不需要将所有的数据一次性加载至内存中,能够减少内存的消耗,内存中只保留了关联度较大的处理数据信息,可以支撑更长的归并周期,进而更好地满足归并需求。更好地满足归并需求。更好地满足归并需求。

【技术实现步骤摘要】
一种分布式环境下数据流式归并方法


[0001]本专利技术涉及数据处理的
,尤其是涉及一种分布式环境下数据流式归并方法。

技术介绍

[0002]近年来,随着门户网站、社交网络、电子商务等网络应用的高速发展,以及业务的持续增长和延伸,产生并累积了大量的业务数据,这些数据具有数据总量大,数据结构多样化,数据增长率高等特点,是典型的分布式数据。
[0003]例如,在电子商务实时推荐系统中,用户喜欢在各平台上进行选择性购物,例如淘宝、天猫、聚划算、支付宝商城等等多商务平台之间各自存储着大量商品的信息,以及用户的注册、搜索、收藏、购买等记录信息,利用该数据实现有效的实时推荐。
[0004]对于数据的归并,通常采用的技术手段是利用窗口机制等方式实现,例如:某条数据到达窗口算子时,窗口算子会根据当前数据的时间和归并周期,建立一个窗口,后续根据匹配规则将数据累积到该窗口进行归并,然后,等到窗口结束时,将窗口内的数据处理后输出到外部存储系统。存在以下技术问题,对于较多的数据,全部进行归并,且在归并周期内,数据累积在内存中,内存开销大。
...

【技术保护点】

【技术特征摘要】
1.一种分布式环境下数据流式归并方法,其特征在于:具体包括以下步骤:S1:通过各环境下的各第一流式归并引擎获取处理数据的集合,利用第一匹配规则对处理数据进行规则匹配,如果所述处理数据命中第一匹配规则,将所述处理数据输出至第二匹配规则内;S2:利用第二流式归并引擎获取命中第一匹配规则的处理数据,将所述处理数据通过第二匹配规则进行规则匹配;S3:将命中第二匹配规则的处理数据存入内存,将未命中第一匹配规则和第二匹配规则的处理数据输出到外部存储系统;S4:内存缓冲区进行数据处理,输出结果,最后释放内存以备循环使用。2.根据权利要求1所述的一种分布式环境下数据流式归并方法,其特征在于:所述处理数据包括分布式环境下的中的累积的大数据即所述处理数据包括各环境下累积的历史数据,都备份在分布式环境的文件系统上,在系统启动或者开始计算任务之前,需要通过第一流式归并引擎读取这部分数据并作预处理。3.根据权利要求1所述的一种分布式环境下数据流式归并方法,其特征在于:所述第一流式归并引擎和第二流式归并引擎均包括:串行数据访问,组织成连续的数据流;线性化执行,对数据输入流的操作采用有序串联;局部邻近,当数据输入流中独立数据经过相应匹配规则后,不应该涉及到数据流中其他过渡偏远的数据;顺序存储,流式调度的过程是顺序读取数据,内存缓冲区进行数据处理。4.根据权利要求1所述的一种分布式环境下数据流式归并方法,其特征在于:所述...

【专利技术属性】
技术研发人员:张亮
申请(专利权)人:北京思斐软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1