一种分布式环境下数据流式归并方法技术

技术编号:36707713 阅读:11 留言:0更新日期:2023-03-01 09:31
本发明专利技术公开了数据处理技术领域的一种分布式环境下数据流式归并方法,具体包括以下步骤:S1:通过各环境下的各第一流式归并引擎获取处理数据的集合,利用第一匹配规则对处理数据进行规则匹配,如果所述处理数据命中第一匹配规则,将所述处理数据输出至第二匹配规则内;S2:利用第二流式归并引擎获取命中第一匹配规则的处理数据,将所述处理数据通过第二匹配规则进行规则匹配;S3:将命中第二匹配规则的处理数据存入内存,将未命中第一匹配规则和第二匹配规则的处理数据输出到外部存储系统,不需要将所有的数据一次性加载至内存中,能够减少内存的消耗,内存中只保留了关联度较大的处理数据信息,可以支撑更长的归并周期,进而更好地满足归并需求。更好地满足归并需求。更好地满足归并需求。

【技术实现步骤摘要】
一种分布式环境下数据流式归并方法


[0001]本专利技术涉及数据处理的
,尤其是涉及一种分布式环境下数据流式归并方法。

技术介绍

[0002]近年来,随着门户网站、社交网络、电子商务等网络应用的高速发展,以及业务的持续增长和延伸,产生并累积了大量的业务数据,这些数据具有数据总量大,数据结构多样化,数据增长率高等特点,是典型的分布式数据。
[0003]例如,在电子商务实时推荐系统中,用户喜欢在各平台上进行选择性购物,例如淘宝、天猫、聚划算、支付宝商城等等多商务平台之间各自存储着大量商品的信息,以及用户的注册、搜索、收藏、购买等记录信息,利用该数据实现有效的实时推荐。
[0004]对于数据的归并,通常采用的技术手段是利用窗口机制等方式实现,例如:某条数据到达窗口算子时,窗口算子会根据当前数据的时间和归并周期,建立一个窗口,后续根据匹配规则将数据累积到该窗口进行归并,然后,等到窗口结束时,将窗口内的数据处理后输出到外部存储系统。存在以下技术问题,对于较多的数据,全部进行归并,且在归并周期内,数据累积在内存中,内存开销大。

技术实现思路

[0005]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本专利技术的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0006]鉴于上述现有一种分布式环境下数据流式归并方法的问题,提出了本专利技术。因此,本专利技术目的是提供一种分布式环境下数据流式归并方法,能够。
[0007]为解决上述技术问题,本专利技术提供一种分布式环境下数据流式归并方法,采用如下的技术方案:具体包括以下步骤:
[0008]S1:通过各环境下的各第一流式归并引擎获取处理数据的集合,利用第一匹配规则对处理数据进行规则匹配,如果所述处理数据命中第一匹配规则,将所述处理数据输出至第二匹配规则内;
[0009]S2:利用第二流式归并引擎获取命中第一匹配规则的处理数据,将所述处理数据通过第二匹配规则进行规则匹配;
[0010]S3:将命中第二匹配规则的处理数据存入内存,将未命中第一匹配规则和第二匹配规则的处理数据输出到外部存储系统;
[0011]S4:内存缓冲区进行数据处理,输出结果,最后释放内存以备循环使用。
[0012]可选的,所述处理数据包括分布式环境下的中的累积的大数据即所述处理数据包括各环境下累积的历史数据,都备份在分布式环境的文件系统上,在系统启动或者开始计算任务之前,需要通过第一流式归并引擎读取这部分数据并作预处理。
[0013]可选的,所述第一流式归并引擎和第二流式归并引擎均包括:
[0014]串行数据访问,组织成连续的数据流;
[0015]线性化执行,对数据输入流的操作采用有序串联;
[0016]局部邻近,当数据输入流中独立数据经过相应匹配规则后,不应该涉及到数据流中其他过渡偏远的数据;
[0017]顺序存储,流式调度的过程是顺序读取数据,内存缓冲区进行数据处理。
[0018]可选的,所述第一匹配规则包括第一过滤规则,基于所述第一过滤规则判断第一匹配规则匹配之前是否过滤掉所述处理数据,如果是则将所述数据输出到外部存储系统,否则执行对所述处理数据进行第二匹配规则匹配。
[0019]可选的,所述第二匹配规则包括第二过滤规则,基于所述第二过过滤规则判断第二匹配规则匹配之前是否过滤掉进行第二匹配规则匹配的处理数据,如果是则将所述处理数据输出到外部存储系统,否则执行对所述处理数据存入内存。
[0020]可选的,所述第一匹配规则包括字段信息,判断所述数据中的相应字段的字段信息与第一匹配规则中对应的字段信息是否一致;如果一致,则确定所述字段信息命中对应的第一匹配规则,将所述字段信息输出至第二匹配规则内。
[0021]可选的,所述第二匹配规则采用字段信息之间的一定时间内的近似性比较方法,将存在近似性的字段信息存入内存,否则输出到外部存储系统。
[0022]可选的,所述一定时间内的近似性比较方法为设定近似性比较字段信息的时间阈值,当超过该时间阈值则将命中第一匹配规则的处理数据存入内存,当在该时间阈值内存在近似性的字段信息存入内存,当在该时间阈值内不存在近似性的字段信息则输出到外部存储系统。
[0023]综上所述,本专利技术包括以下至少一种有益效果:
[0024]1、通过采用流式归并引擎从分布式环境中每一次从结果集中获取到的数据,都能够通过逐条获取的方式返回正确的单条数据,并不需要将所有的数据一次性加载至内存中,能够极大减少内存的消耗。
[0025]2、采用第一匹配规则和第二匹配规则,能够快速的将不需要将数据快速剔除,内存中只保留了关联度较大的处理数据信息,可以支撑更长的归并周期,进而更好地满足归并需求。
附图说明
[0026]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0027]图1为本专利技术方法流程示意图。
具体实施方式
[0028]以下结合附图1对本专利技术作进一步详细说明。
[0029]参照图1,本专利技术公开一种分布式环境下数据流式归并方法,具体包括以下步骤:
[0030]S1:通过各环境下的各第一流式归并引擎获取处理数据的集合,例如将淘宝和天猫各环境下或的处理数据,处理数据包括分布式环境下的中的累积的大数据即所述处理数据包括各环境下累积的历史数据,都备份在分布式环境的文件系统上,在系统启动或者开始计算任务之前,需要通过第一流式归并引擎读取这部分数据并作预处理。
[0031]利用第一匹配规则对处理数据进行规则匹配,如果所述处理数据命中第一匹配规则,将所述处理数据输出至第二匹配规则内;所述第一匹配规则包括字段信息,判断所述数据中的相应字段的字段信息与第一匹配规则中对应的字段信息是否一致;如果一致,则确定所述字段信息命中对应的第一匹配规则,将所述字段信息输出至第二匹配规则内。
[0032]通过第一匹配规则对通过逐条获取的方式返回正确的单条数据进行剔除,不但能够减少内存的消耗,还能够保留了具有关联度处理数据信息。
[0033]S2:利用第二流式归并引擎获取命中第一匹配规则的处理数据,将所述处理数据通过第二匹配规则进行规则匹配;所述第二匹配规则采用字段信息之间的一定时间内的近似性比较方法,将存在近似性的字段信息存入内存,否则输出到外部存储系统。
[0034]第二匹配规则采用的一定时间内的近似性比较方法为现有关键词近似度检索的技术,可以对各分布式环境下的字段信息进行近似性比较,然后再通过逐条获取的方式返回正确的单条数据进行剔除,不但能够大大减少内存的消耗,还能够保留了关联度较大的处理数据信息。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式环境下数据流式归并方法,其特征在于:具体包括以下步骤:S1:通过各环境下的各第一流式归并引擎获取处理数据的集合,利用第一匹配规则对处理数据进行规则匹配,如果所述处理数据命中第一匹配规则,将所述处理数据输出至第二匹配规则内;S2:利用第二流式归并引擎获取命中第一匹配规则的处理数据,将所述处理数据通过第二匹配规则进行规则匹配;S3:将命中第二匹配规则的处理数据存入内存,将未命中第一匹配规则和第二匹配规则的处理数据输出到外部存储系统;S4:内存缓冲区进行数据处理,输出结果,最后释放内存以备循环使用。2.根据权利要求1所述的一种分布式环境下数据流式归并方法,其特征在于:所述处理数据包括分布式环境下的中的累积的大数据即所述处理数据包括各环境下累积的历史数据,都备份在分布式环境的文件系统上,在系统启动或者开始计算任务之前,需要通过第一流式归并引擎读取这部分数据并作预处理。3.根据权利要求1所述的一种分布式环境下数据流式归并方法,其特征在于:所述第一流式归并引擎和第二流式归并引擎均包括:串行数据访问,组织成连续的数据流;线性化执行,对数据输入流的操作采用有序串联;局部邻近,当数据输入流中独立数据经过相应匹配规则后,不应该涉及到数据流中其他过渡偏远的数据;顺序存储,流式调度的过程是顺序读取数据,内存缓冲区进行数据处理。4.根据权利要求1所述的一种分布式环境下数据流式归并方法,其特征在于:所述...

【专利技术属性】
技术研发人员:张亮
申请(专利权)人:北京思斐软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1