一种提升数据ETL性能的方法及装置制造方法及图纸

技术编号:37318503 阅读:11 留言:0更新日期:2023-04-21 22:59
本发明专利技术公开一种提升数据ETL性能的方法及装置,其中,该方法包括:通过ClickHouse提供的Clickhouse

【技术实现步骤摘要】
一种提升数据ETL性能的方法及装置


[0001]本专利技术涉及数据ETL性能领域,尤其是一种提升数据ETL性能的方法及装置。

技术介绍

[0002]传统使用Spark或者Flink进行数据ETL的操作,存在的主要性能瓶颈如下:
[0003](1)基于Java/Scala语言的JVM语言,进行转换、清洗和解析数据(例如JSON)等,相对于C/C++耗时,占用内存高,当处理超大记录时,容易OOM。
[0004](2)传统的数据处理、数据转换或者函数调用,是拆分成一个个的操作符,然后进行分支的判断和计算,每条数据都要调用一次操作符,数据量大时,非常耗时。
[0005]如图1所示,计算机不同的存储介质,计算性能的对比。从左往右,计算响应的速度是越来越慢。在CPU(寄存器)中数据处理的性能是最高的。在CPU(寄存器)中访问数据的速度是在内存中访问数据的速度的300倍,是在磁盘中访问数据的速度的3000万倍。
[0006](3)传统的数据处理,不能实现运行时代码自动生成
[0007]如图2所示,左边是传统的数据库管理系统中对函数调用的底层的数据处理的模型。这里是将函数的表达式拆分成一个个的操作符,然后进行分支的判断和计算。右边是运行时代码自动生成,首先将表达式转换成对应的代码,然后编译执行。通过代码自动生成的方式,可以消除大量操作符的调用,并且是没有ifelse的分支。

技术实现思路

[0008]为了解决现有技术存在的上述问题,本专利技术提供一种提升数据ETL性能的方法及装置,通过ClickHouse提供的Clickhouse

Local的二进制工具,并在该工具源码的基础之上进行自定义函数的扩展,实现对数据的处理和异常容错,并利用其向量化执行引擎和代码自动生成能力,对数据进行处理处理,在HDFS生成大数据平台Hive表格式的文件,并移动至Hive表,刷新Hive表分区(如果存在分区);向量化执行引擎就是利用SIMD指令集,能够执行并行的操作,对于执行相同操作的数据,一条SIMD指令可以同时处理多条数据,在CPU(寄存器)层面做了大量的优化,具备高性能的数据处理能力。
[0009]为实现上述目的,本专利技术采用下述技术方案:
[0010]在本专利技术一实施例中,提出了一种提升数据ETL性能的方法,该方法包括:
[0011]通过ClickHouse提供的Clickhouse

Local工具,并在该工具源码的基础之上自定义数据处理函数;
[0012]通过自定义的数据处理函数,利用CPU的SIMD指令集,对数据进行处理和异常容错,生成大数据平台格式的数据文件写入目标存储,并移动至Hive表,如果Hive表存在分区,则刷新Hive表分区。
[0013]进一步地,对于异常无法处理的数据,通过自定义的数据处理函数,执行过滤或者使用单独的字段专门存储。
[0014]进一步地,每个分布式数据集的分区创建一条利用CPU的SIMD指令集来处理数据
的管道,并在每个分区的管道中创建物化视图,并指定HDFS引擎基表;每个分布式数据集的分区中的数据以迭代器的形式存在。
[0015]进一步地,物化视图的创建规则如下:
[0016]物化视图的创建语句,在AS关键字的后面通过SQL实现数据处理;
[0017]自定义的数据处理函数,对传入的数据进行处理,返回两列:第一列为无法处理的异常数据,第二列为正常处理数据,以嵌套类型返回。;
[0018]通过where条件对数据进行过滤;
[0019]在select语句的后面,对嵌套字段的数据进行展开,同时对展开的嵌套字段的数据使用任意的ClickHouse函数进行处理,处理后的数据返回,并存入HDFS引擎基表;
[0020]临时表的数据来源为标准输入的数据;
[0021]当数据插入临时表,物化视图自动执行数据处理,将处理后的数据写入HDFS引擎基表。
[0022]进一步地,HDFS引擎基表的创建规则如下:
[0023]基表的表引擎为HDFS,HDFS引擎可指定数据存储的HDFS路径以及文件格式;
[0024]创建基表时,字段名称和字段数据类型与物化视图的SQL逻辑返回的字段和字段数据类型保持一致;
[0025]数据存储的HDFS路径作为临时目录,通过分区编号进行标识,分区编号根据所在的分区进行动态调整。
[0026]在本专利技术一实施例中,还提出了一种提升数据ETL性能的装置,该装置包括:
[0027]函数定义模块,用于通过ClickHouse提供的Clickhouse

Local工具,并在该工具源码的基础之上自定义数据处理函数;
[0028]数据处理模块,用于通过自定义的数据处理函数,利用CPU的SIMD指令集,对数据进行处理和异常容错,生成大数据平台格式的数据文件写入目标存储,并移动至Hive表,如果Hive表存在分区,则刷新Hive表分区。
[0029]进一步地,对于异常无法处理的数据,通过自定义的数据处理函数,执行过滤或者使用单独的字段专门存储。
[0030]进一步地,每个分布式数据集的分区创建一条利用CPU的SIMD指令集来处理数据的管道,并在每个分区的管道中创建物化视图,并指定HDFS引擎基表;每个分布式数据集的分区中的数据以迭代器的形式存在。
[0031]进一步地,物化视图的创建规则如下:
[0032]物化视图的创建语句,在AS关键字的后面通过SQL实现数据处理;
[0033]自定义的数据处理函数,对传入的数据进行处理,返回两列:第一列为无法处理的异常数据,第二列为正常处理数据,以嵌套类型返回。;
[0034]通过where条件对数据进行过滤;
[0035]在select语句的后面,对嵌套字段的数据进行展开,同时对展开的嵌套字段的数据使用任意的ClickHouse函数进行处理,处理后的数据返回,并存入HDFS引擎基表;
[0036]临时表的数据来源为标准输入的数据;
[0037]当数据插入临时表,物化视图自动执行数据处理,将处理后的数据写入HDFS引擎基表。
[0038]进一步地,HDFS引擎基表的创建规则如下:
[0039]基表的表引擎为HDFS,HDFS引擎可指定数据存储的HDFS路径以及文件格式;
[0040]创建基表时,字段名称和字段数据类型与物化视图的SQL逻辑返回的字段和字段数据类型保持一致;
[0041]数据存储的HDFS路径作为临时目录,通过分区编号进行标识,分区编号根据所在的分区进行动态调整。
[0042]在本专利技术一实施例中,还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述提升数据ETL性能的。
[0043]在本专利技术一实施例中,还提出了一种计算机可读存储介质,计算机可读存储介本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提升数据ETL性能的方法,其特征在于,该方法包括:通过ClickHouse提供的Clickhouse

Local工具,并在该工具源码的基础之上自定义数据处理函数;通过自定义的数据处理函数,利用CPU的SIMD指令集,对数据进行处理和异常容错,生成大数据平台格式的数据文件写入目标存储,并移动至Hive表,如果Hive表存在分区,则刷新Hive表分区。2.根据权利要求1所述的提升数据ETL性能的方法,其特征在于,对于异常无法处理的数据,通过自定义的数据处理函数,执行过滤或者使用单独的字段专门存储。3.根据权利要求1所述的提升数据ETL性能的方法,其特征在于,每个分布式数据集的分区创建一条利用CPU的SIMD指令集来处理数据的管道,并在每个分区的管道中创建物化视图,并指定HDFS引擎基表;每个分布式数据集的分区中的数据以迭代器的形式存在。4.根据权利要求3所述的提升数据ETL性能的方法,其特征在于,所述物化视图的创建规则如下:物化视图的创建语句,在AS关键字的后面通过SQL实现数据处理;自定义的数据处理函数,对传入的数据进行处理,返回两列:第一列为无法处理的异常数据,第二列为正常处理数据,以嵌套类型返回。;通过where条件对数据进行过滤;在select语句的后面,对嵌套字段的数据进行展开,同时对展开的嵌套字段的数据使用任意的ClickHouse函数进行处理,处理后的数据返回,并存入HDFS引擎基表;临时表的数据来源为标准输入的数据;当数据插入临时表,物化视图自动执行数据处理,将处理后的数据写入HDFS引擎基表。5.根据权利要求3所述的提升数据ETL性能的方法,其特征在于,所述HDFS引擎基表的创建规则如下:基表的表引擎为HDFS,HDFS引擎可指定数据存储的HDFS路径以及文件格式;创建基表时,字段名称和字段数据类型与物化视图的SQL逻辑返回的字段和字段数据类型保持一致;数据存储的HDFS路径作为临时目录,通过分区编号进行标识,分区编号根据所在的分区进行动态调整。6.一种提升数据ETL性能的装置,其特征在于,该装置包括:函数定义模块,用于通过ClickHouse提供的Clickhouse

Local工具,并在该工具源码的基础之上自定...

【专利技术属性】
技术研发人员:周朝卫刘钧周世军覃华云
申请(专利权)人:中盈优创资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1