ETL数据处理方法、装置、计算设备及存储介质制造方法及图纸

技术编号:33040876 阅读:13 留言:0更新日期:2022-04-15 09:21
本发明专利技术提供了一种ETL数据处理方法、装置、计算设备及存储介质,其中方法包括:确定需进行数据处理的ETL处理流程;根据预先生成的算子库,获取实现所述ETL处理流程所需的算子及算子间的编排顺序;其中,所述算子库包括多个基于不同处理逻辑生成的算子;为每一个算子关联配置对应的业务规则,得到与每一个算子一一对应的各数据处理任务;根据所述编排顺序,按顺序执行得到的各数据处理任务。本方案,如果处理逻辑或者所需处理的数据结构发生变更,只需变更所需的算子并关联配置对应的业务规则即可,且算子存储在算子库中可被复用,无需重新进行全编码,从而降低人力成本,且可以快速实现数据处理,降低了数据处理的延迟性。降低了数据处理的延迟性。降低了数据处理的延迟性。

【技术实现步骤摘要】
ETL数据处理方法、装置、计算设备及存储介质


[0001]本专利技术实施例涉及数据处理
,特别涉及一种ETL数据处理方法、装置、计算设备及存储介质。

技术介绍

[0002]ETL(Extract

Transform

Load,数据仓库技术)是用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。随着Spark、Flink等ETL相关技术的横空出世,原始Mapreduce已被扫入历史角落。但是,不管是Spark还是Flink的数据处理框架,在ETL数据处理过程中,均需要将ETL的数据处理流程固化为ETL代码,若处理逻辑发生变更,或者所处理的数据结构发生变更后,均需要开发人员进行ETL代码的修改、打包以及重新部署。这对技术人员的技术门槛要求较高,不仅人力成本高,且生效周期长、延迟性高。

技术实现思路

[0003]基于现有技术中人力成本高、延迟性高等问题,本专利技术实施例提供了一种ETL数据处理方法、装置、计算设备及存储介质,能够降低人力成本和延迟性。
[0004]第一方面,本专利技术实施例提供了一种ETL数据处理方法,包括:
[0005]确定需进行数据处理的ETL处理流程;
[0006]根据预先生成的算子库,获取实现所述ETL处理流程所需的算子及算子间的编排顺序;其中,所述算子库包括多个基于不同处理逻辑生成的算子;
[0007]为每一个算子关联配置对应的业务规则,得到与每一个算子一一对应的各数据处理任务;
[0008]根据所述编排顺序,按顺序执行得到的各数据处理任务。
[0009]优选地,所述根据预先生成的算子库,获取实现所述ETL处理流程所需的算子,包括:
[0010]确定实现所述ETL处理流程所需的目标算子;
[0011]查找所述算子库,将所述算子库中存在的目标算子从所述算子库中获取,针对所述算子库中不存在的目标算子,则根据所述ETL处理流程生成该不存在的目标算子。
[0012]优选地,所述根据所述ETL处理流程生成该不存在的目标算子,包括:
[0013]确定该不存在的目标算子对应所述ETL处理流程的ETL子处理流程;
[0014]确定所述ETL子处理流程对应的处理逻辑以及该处理逻辑依据的业务规则;
[0015]将该处理逻辑依据的业务规则确定为可变参数;
[0016]根据所述可变参数对该处理逻辑进行编码;
[0017]对所述编码进行封装得到该处理逻辑对应的算子;其中,所述编码中包含所述可变参数。
[0018]优选地,所述为每一个算子关联配置对应的业务规则,包括:
[0019]确定算子中的可变参数,根据所述ETL处理流程确定该可变参数关联的业务规则,
并将确定的业务规则确定为对应的可变参数。
[0020]优选地,按照各ETL阶段的先后顺序,所述ETL处理流程可被划分为源数据读取流程、数据处理流程和数据输出流程;
[0021]其中,所述源数据读取流程的数量为至少一个,当所述源数据读取流程的数量为两个以上时,该两个以上的所述源数据读取流程为并列关系;和/或,所述数据输出流程的数量为至少一个,当所述数据输出流程的数量为两个以上时,该两个以上的所述数据输出流程为并列关系。
[0022]优选地,所述ETL数据处理方法是基于开源流处理框架实现的,所述数据处理流程处理的数据均为流数据。
[0023]优选地,所述源数据读取流程可用于读取批数据并将所述批数据转换为流数据;
[0024]和/或,
[0025]所述源数据读取流程从数据总线读取数据,所述数据输出流程将处理后的数据输出至所述数据总线中。
[0026]第二方面,本专利技术实施例还提供了一种ETL数据处理装置,包括:
[0027]流程确定单元,用于确定需进行数据处理的ETL处理流程;
[0028]算子获取单元,用于根据预先生成的算子库,获取实现所述ETL处理流程所需的算子及算子间的编排顺序;其中,所述算子库包括多个基于不同处理逻辑生成的算子;
[0029]关联配置单元,用于为每一个算子关联配置对应的业务规则,得到与每一个算子一一对应的各数据处理任务;
[0030]任务处理单元,用于根据所述编排顺序,按顺序执行得到的各数据处理任务。
[0031]第三方面,本专利技术实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
[0032]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
[0033]本专利技术实施例提供了一种ETL数据处理方法、装置、计算设备及存储介质,通过预先基于不同处理逻辑生成对应的算子存储到算子库中,当需要进行ETL数据处理时,只需根据ETL处理流程确定所需的算子以及算子间的编排顺序,然后给算子关联配置上对应的业务规则,则可以得到用于实现RTL处理流程的数据处理任务。可见,如果处理逻辑或者所需处理的数据结构发生变更,只需变更所需的算子并关联配置对应的业务规则即可,且算子存储在算子库中可被复用,无需重新进行全编码,从而降低人力成本,且可以快速实现数据处理,降低了数据处理的延迟性。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1是本专利技术一实施例提供的一种ETL数据处理方法流程图;
[0036]图2是本专利技术一实施例提供的一种整体的ETL处理流程图;
[0037]图3是本专利技术一实施例提供的一种单进单出处理模型示意图;
[0038]图4是本专利技术一实施例提供的一种单进多出处理模型示意图;
[0039]图5是本专利技术一实施例提供的一种多进单出处理模型示意图;
[0040]图6是本专利技术一实施例提供的一种多进多出处理模型示意图;
[0041]图7是本专利技术一实施例提供的一种计算设备的硬件架构图;
[0042]图8是本专利技术一实施例提供的一种ETL数据处理装置结构图。
具体实施方式
[0043]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]如前所述,现有的ETL数据处理过程,均需要将ETL处理流程固化为ETL代码,若处理逻辑发生变更,或者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种ETL数据处理方法,其特征在于,包括:确定需进行数据处理的ETL处理流程;根据预先生成的算子库,获取实现所述ETL处理流程所需的算子及算子间的编排顺序;其中,所述算子库包括多个基于不同处理逻辑生成的算子;为每一个算子关联配置对应的业务规则,得到与每一个算子一一对应的各数据处理任务;根据所述编排顺序,按顺序执行得到的各数据处理任务。2.根据权利要求1所述的方法,其特征在于,所述根据预先生成的算子库,获取实现所述ETL处理流程所需的算子,包括:确定实现所述ETL处理流程所需的目标算子;查找所述算子库,将所述算子库中存在的目标算子从所述算子库中获取,针对所述算子库中不存在的目标算子,则根据所述ETL处理流程生成该不存在的目标算子。3.根据权利要求2所述的方法,其特征在于,所述根据所述ETL处理流程生成该不存在的目标算子,包括:确定该不存在的目标算子对应所述ETL处理流程的ETL子处理流程;确定所述ETL子处理流程对应的处理逻辑以及该处理逻辑依据的业务规则;将该处理逻辑依据的业务规则确定为可变参数;根据所述可变参数对该处理逻辑进行编码;对所述编码进行封装得到该处理逻辑对应的算子;其中,所述编码中包含所述可变参数。4.根据权利要求3所述的方法,其特征在于,所述为每一个算子关联配置对应的业务规则,包括:确定算子中的可变参数,根据所述ETL处理流程确定该可变参数关联的业务规则,并将确定的业务规则确定为对应的可变参数。5.根据权利要求1

4中任一所述的方法,其特征在于,按照各ETL阶段的先后顺序,所述ETL处理流程可被划分为源数据读取...

【专利技术属性】
技术研发人员:银坤王学凯
申请(专利权)人:北京安天网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1