一种提升数据ETL性能的方法及装置制造方法及图纸

技术编号：37318503 阅读：11 留言：0更新日期：2023-04-21 22:59

本发明专利技术公开一种提升数据ETL性能的方法及装置，其中，该方法包括：通过ClickHouse提供的Clickhouse

全部详细技术资料下载

【技术实现步骤摘要】
一种提升数据ETL性能的方法及装置

[0001]本专利技术涉及数据ETL性能领域，尤其是一种提升数据ETL性能的方法及装置。

技术介绍

[0002]传统使用Spark或者Flink进行数据ETL的操作，存在的主要性能瓶颈如下：
[0003](1)基于Java/Scala语言的JVM语言，进行转换、清洗和解析数据(例如JSON)等，相对于C/C++耗时，占用内存高，当处理超大记录时，容易OOM。
[0004](2)传统的数据处理、数据转换或者函数调用，是拆分成一个个的操作符，然后进行分支的判断和计算，每条数据都要调用一次操作符，数据量大时，非常耗时。
[0005]如图1所示，计算机不同的存储介质，计算性能的对比。从左往右，计算响应的速度是越来越慢。在CPU(寄存器)中数据处理的性能是最高的。在CPU(寄存器)中访问数据的速度是在内存中访问数据的速度的300倍，是在磁盘中访问数据的速度的3000万倍。
[0006](3)传统的数据处理，不能实现运行时代码自动生成
[0007]如图2所示，左边是传统的数据库管理系统中对函数调用的底层的数据处理的模型。这里是将函数的表达式拆分成一个个的操作符，然后进行分支的判断和计算。右边是运行时代码自动生成，首先将表达式转换成对应的代码，然后编译执行。通过代码自动生成的方式，可以消除大量操作符的调用，并且是没有ifelse的分支。

技术实现思路

[0008]为了解决现有技术存在的上述问题，本专利技术提供一种提升数据ETL性能的方法及装...

【技术保护点】

【技术特征摘要】
1.一种提升数据ETL性能的方法，其特征在于，该方法包括：通过ClickHouse提供的Clickhouse
‑
Local工具，并在该工具源码的基础之上自定义数据处理函数；通过自定义的数据处理函数，利用CPU的SIMD指令集，对数据进行处理和异常容错，生成大数据平台格式的数据文件写入目标存储，并移动至Hive表，如果Hive表存在分区，则刷新Hive表分区。2.根据权利要求1所述的提升数据ETL性能的方法，其特征在于，对于异常无法处理的数据，通过自定义的数据处理函数，执行过滤或者使用单独的字段专门存储。3.根据权利要求1所述的提升数据ETL性能的方法，其特征在于，每个分布式数据集的分区创建一条利用CPU的SIMD指令集来处理数据的管道，并在每个分区的管道中创建物化视图，并指定HDFS引擎基表；每个分布式数据集的分区中的数据以迭代器的形式存在。4.根据权利要求3所述的提升数据ETL性能的方法，其特征在于，所述物化视图的创建规则如下：物化视图的创建语句，在AS关键字的后面通过SQL实现数据处理；自定义的数据处理函数，对传入的数据进行处理，返回两列：第一列为无法处理的异常数据，第二列为正常处理数据，以嵌套类型返回。；通过where条件对数据进行过滤；在select语句的后面，对嵌套字段的数据进行展开，同时对展开的嵌套字段的数据使用任意的ClickHouse函数进行处理，处理后的数据返回，并存入HDFS引擎基表；临时表的数据来源为标准输入的数据；当数据插入临时表，物化视图自动执行数据处理，将处理后的数据写入HDFS引擎基表。5.根据权利要求3所述的提升数据ETL性能的方法，其特征在于，所述HDFS引擎基表的创建规则如下：基表的表引擎为HDFS，HDFS引擎可指定数据存储的HDFS路径以及文件格式；创建基表时，字段名称和字段数据类型与物化视图的SQL逻辑返回的字段和字段数据类型保持一致；数据存储的HDFS路径作为临时目录，通过分区编号进行标识，分区编号根据所在的分区进行动态调整。6.一种提升数据ETL性能的装置，其特征在于，该装置包括：函数定义模块，用于通过ClickHouse提供的Clickhouse
‑
Local工具，并在该工具源码的基础之上自定...

【专利技术属性】
技术研发人员：周朝卫，刘钧，周世军，覃华云，
申请(专利权)人：中盈优创资讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人