System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种可视化ETL数据处理方法及系统技术方案_技高网

一种可视化ETL数据处理方法及系统技术方案

技术编号:40591155 阅读:5 留言:0更新日期:2024-03-12 21:52
本发明专利技术提出了一种可视化ETL数据处理方法及系统,该方法包括:在外部服务器上运行Apache Flink处理引擎,所述Apache Flink处理引擎用于执行ETL流程中每个数据处理节点的数据处理逻辑;将每个数据处理节点的数据处理逻辑在内存中对应生成一个Table引用;在数据处理节点执行可视化ETL流程中的数据处理逻辑时,ETL流程中数据处理节点通过对应的内存Table引用,调用内存Table引用中的数据处理逻辑,并抽取数据库的数据进行处理,有效地节省了数据库服务器的内存以及磁盘存储空间。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其是涉及一种可视化etl数据处理方法及系统。


技术介绍

1、etl(extract-transform-load,抽取、转换、载入),用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。可视化etl是将一个复杂的etl流程,以可视化的形式折解为多个数据处理节点,使用者可以逐节点进行开发,以较低的难度完成复杂的数据处理。

2、传统的可视化etl技术实现,为etl流程中的每个节点建立一个数据库的临时表或视图,每个节点的临时表或视图之间相互引用,下游节点直接查询上游节点对应的临时表或视图,完成数据一层层的转换。当数据处理节点较多时,创建的临时表和视图也随之增多,会过多占用数据库服务器的内存,当内存消耗较多时,数据库会通过临时文件进行数据操作,进而消耗数据库磁盘空间,不利于降低数据库服务器的内存以及磁盘存储空间。

3、针对这种问题,本专利技术提供了一种可视化etl数据处理方法及系统,以解决上述问题。


技术实现思路

1、本专利技术为了解决现有技术中存在的问题,创新提出了一种可视化etl数据处理方法及系统,有效解决由于现有技术造成占用大量数据库服务器的内存以及磁盘存储空间的问题,有效地节省了数据库服务器的内存以及磁盘存储空间。

2、本专利技术第一方面提供了一种可视化etl数据处理方法,包括:

3、在外部服务器上运行apache flink处理引擎,所述apache flink处理引擎用于执行etl流程中每个数据处理节点的数据处理逻辑;

4、将每个数据处理节点的数据处理逻辑在内存中对应生成一个table引用;其中,所述table引用用于存储数据处理节点的数据处理逻辑在内存中存储的位置指针,etl流程中下游数据处理节点对应的table引用为下游数据处理节点的数据处理逻辑与最近的上游数据处理节点的数据处理逻辑之间的整合;

5、在数据处理节点执行可视化etl流程中的数据处理逻辑时,etl流程中数据处理节点通过对应的内存table引用,调用内存table引用中的数据处理逻辑,并抽取数据库的数据进行处理。

6、可选地,在一个可视化etl流程执行中,保证该可视化etl执行流程中的任意数据处理节点所对应的table引用对其他数据处理节点均是随时可用的。

7、进一步地,在一个可视化etl流程执行中,保证该可视化etl执行流程中的任意数据处理节点所对应的table引用对其他数据处理节点均是随时可用的实现方法具体包括:

8、在外部服务器上运行web服务;其中,web服务在一个可视化etl流程中常驻内存;web服务中提供用于处理etl流程中数据处理节点报文请求的数据处理接口;将apacheflink处理引擎嵌入web服务中,成为一个支持在内存中完成数据处理的进程;

9、数据处理接口接收到报文请求后,调用内嵌的apache flink引擎进行数据处理;

10、为每一个数据处理节点向web服务发送数据处理请求;

11、某个数据处理节点接收到数据处理接口的处理完成的响应后,距离当前数据处理节点最近的下游数据处理节点向数据处理接口发送数据处理请求;

12、直到所有数据处理节点都接收到数据处理接口的处理完成的响应,etl流程执行完成。

13、进一步地,数据处理节点的处理逻辑具体包括:

14、判断数据处理请求对应的数据处理节点,如果是etl流程流程中的第一个数据处理节点,由apache flink引擎在内存中创建一个与第一个数据处理节点对应的table引用;

15、如果不是etl流程流程中的第一个数据处理节点,则在web服务的内存中检索出最近的上游数据处理节点对应的table引用,将最近的上游table引用传递给apache flink引擎,由apache flink引擎调用当前数据处理节点的处理逻辑以及上游数据处理节点的处理逻辑经过整合转换后得到新的与当前数据数据节点对应的table引用;

16、由apache flink引擎调用的新的table引用对应的数据处理逻辑,抽取数据库表的数据,在内存中进行处理,得到结果数据;

17、将结果数据响应给数据处理节点,完成当前数据处理节点的处理。

18、可选地,table引用的维护方式具体包括:

19、每个数据处理节点均拥有唯一编号;

20、任一数据处理节点向数据处理接口发送请求时,请求报文信息包括该数据处理节点的数据处理逻辑参数、唯一编号,上游数据处理节点的唯一编号;

21、数据处理接口接收到请求报文后,根据请求报文中是否有上游数据处理节点的唯一编号,判断当前数据处理节点是否为etl流程中的第一个节点,没有上游数据处理节点的唯一编号,则代表当前数据处理节点是第一个节点;

22、如果是etl流程中的第一个数据处理节点,则将当前数据处理节点的唯一编号和对应的table引用形成一个键值对的映射关系;

23、如果不是第一个数据处理节点,则在内存中检索出上游数据处理节点的table引用,作为当前数据处理节点处理的必要条件传递给apache flink引擎,apache flink引擎调用当前数据处理节点的处理逻辑以及上游数据处理节点的处理逻辑经过整合转换后得到新的与当前数据数据节点对应的table引用,将当前数据处理节点的唯一编号和对应的table引用形成一个键值对的映射关系。

24、进一步地,将所有数据处理节点按照依赖顺序关系形成一个有向无环图结构,在执行方式为“整个可视化etl流程”、“仅该数据处理节点运算”、“从该数据处理节点向后运算”和“从可视化etl流程的初始数据处理节点向该数据处理节点运算”时,从有向无环图中按照数据处理节点的唯一编号截取出对应流程片段,流程片段中的数据处理节点依次向负责处理的web服务发送数据处理请求,直到片段中的所有数据处理节点运算完成,可视化etl流程执行结束。

25、可选地,还包括:

26、在etl流程执行时,将所有数据处理节点整合为一个数据处理节点,整合后的数据处理节点中包含所有原数据处理节点对数据的数理逻辑。

27、进一步地,整合后的数据处理节点仅使用一个队列,所述队列中包括所有原数据处理节点依次一一对应的处理函数。

28、可选地,整合后的数据处理节点对应的table引用为整合后的数据处理节点的数据处理逻辑与所有原数据处理节点的数据处理逻辑之间的整合转换。

29、本专利技术第二方面提供了一种可视化etl数据处理系统,包括:

30、运行模块,在外部服务器上运行apache flink处理引擎,所述apache flink处理引擎用于执行etl流程中每个数据处理节点的数据处理逻辑;

31、生成模块,将每个数据处理节点的数据处理逻辑在内存中对应生成一个table引用;其中,所述table引用用于存本文档来自技高网...

【技术保护点】

1.一种可视化ETL数据处理方法,其特征是,包括:

2.根据权利要求1所述的一种可视化ETL数据处理方法,其特征是,在一个可视化ETL流程执行中,保证该可视化ETL执行流程中的任意数据处理节点所对应的Table引用对其他数据处理节点均是随时可用的。

3.根据权利要求2所述的一种可视化ETL数据处理方法,其特征是,在一个可视化ETL流程执行中,保证该可视化ETL执行流程中的任意数据处理节点所对应的Table引用对其他数据处理节点均是随时可用的实现方法具体包括:

4.根据权利要求3所述的一种可视化ETL数据处理方法,其特征是,数据处理节点的处理逻辑具体包括:

5.根据权利要求3所述的一种可视化ETL数据处理方法,其特征是,Table引用的维护方式具体包括:

6.根据权利要求5所述的一种可视化ETL数据处理方法,其特征是,将所有数据处理节点按照依赖顺序关系形成一个有向无环图结构,在执行方式为“整个可视化ETL流程”、“仅该数据处理节点运算”、“从该数据处理节点向后运算”和“从可视化ETL流程的初始数据处理节点向该数据处理节点运算”时,从有向无环图中按照数据处理节点的唯一编号截取出对应流程片段,流程片段中的数据处理节点依次向负责处理的web服务发送数据处理请求,直到片段中的所有数据处理节点运算完成,可视化ETL流程执行结束。

7.根据权利要求1-6任意一项所述的一种可视化ETL数据处理方法,其特征是,还包括:

8.根据权利要求7所述的一种可视化ETL数据处理方法,其特征是,整合后的数据处理节点仅使用一个队列,所述队列中包括所有原数据处理节点依次一一对应的处理函数。

9.根据权利要求7所述的一种可视化ETL数据处理方法,其特征是,整合后的数据处理节点对应的Table引用为整合后的数据处理节点的数据处理逻辑与所有原数据处理节点的数据处理逻辑之间的整合转换。

10.一种可视化ETL数据处理系统,其特征是,包括:

...

【技术特征摘要】

1.一种可视化etl数据处理方法,其特征是,包括:

2.根据权利要求1所述的一种可视化etl数据处理方法,其特征是,在一个可视化etl流程执行中,保证该可视化etl执行流程中的任意数据处理节点所对应的table引用对其他数据处理节点均是随时可用的。

3.根据权利要求2所述的一种可视化etl数据处理方法,其特征是,在一个可视化etl流程执行中,保证该可视化etl执行流程中的任意数据处理节点所对应的table引用对其他数据处理节点均是随时可用的实现方法具体包括:

4.根据权利要求3所述的一种可视化etl数据处理方法,其特征是,数据处理节点的处理逻辑具体包括:

5.根据权利要求3所述的一种可视化etl数据处理方法,其特征是,table引用的维护方式具体包括:

6.根据权利要求5所述的一种可视化etl数据处理方法,其特征是,将所有数据处理节点按照依赖顺序关系形成一个有向无环图结构,在执行方式为“整个可视...

【专利技术属性】
技术研发人员:展恒昌赵国强左立俊崔文强
申请(专利权)人:华戎信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1