一种基于大数据计算引擎的ETL作业开发系统和计算机设备技术方案

技术编号：29526421 阅读：38 留言：0更新日期：2021-08-03 15:12

本申请实施例属于大数据技术领域，涉及一种基于大数据计算引擎的ETL作业开发系统和一种计算机设备，系统包括：配置文件输入及解析子系统，用于输入待进行ETL作业开发的配置文件，然后将所述配置文件进行解析，得到解析结果；渲染及注册子系统，用于对所述解析结果进行渲染和动态编译，然后向大数据计算引擎进行注册；执行子系统，用于调用所述注册后的大数据计算引擎进行ETL作业开发。采用配置式的开发方式和动态解析渲染ETL作业指令，并结合大数据计算引擎形成分布式的大数据处理系统，可以减少重复性劳动、缩短开发流程，并降低了开发和运维的难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据计算引擎的ETL作业开发系统和计算机设备
本专利技术涉及大数据
，尤其涉及一种基于大数据计算引擎的ETL作业开发系统和计算机设备。
技术介绍
当前，海量的数据分析是非常常见的互联网业务场景，这些海量数据可能存储于离线数据源(如HDFS)或实时数据源(如KAFKA)，在进行一些比较常见的数据ETL(Extract-Transform-Load，抽取-转换-加载)操作时需要将数据进行聚合、累加或者过滤，并写入外部存储系统比如HDFS、RDS或KAFKA等。开发人员会利用一些常见的大数据框架，如Flink或Spark等，然后结合具体的数据处理业务实现上述ETL过程，这要求其必须非常熟悉Flink或Spark的API接口且熟悉一些常见的编程语言，如Java或Scala等，并且每个数据处理需求都要建立特定的项目，重复性劳动较多、开发流程较长，无法统一部署，这给开发和运维带来很大困难。
技术实现思路
本申请实施例的目的在于提出一种基于大数据计算引擎的ETL作业开发系统，以降低大数据处理过程...

【技术保护点】
1.一种基于大数据计算引擎的ETL作业开发系统，其特征在于，包括：/n配置文件输入及解析子系统，用于输入待进行ETL作业开发的配置文件，然后将所述配置文件进行解析，得到解析结果；/n渲染及注册子系统，用于对所述解析结果进行渲染和动态编译，然后向大数据计算引擎进行注册；/n执行子系统，用于调用所述注册后的大数据计算引擎进行ETL作业开发。/n

【技术特征摘要】
1.一种基于大数据计算引擎的ETL作业开发系统，其特征在于，包括：
配置文件输入及解析子系统，用于输入待进行ETL作业开发的配置文件，然后将所述配置文件进行解析，得到解析结果；
渲染及注册子系统，用于对所述解析结果进行渲染和动态编译，然后向大数据计算引擎进行注册；
执行子系统，用于调用所述注册后的大数据计算引擎进行ETL作业开发。

2.如权利要求1所述的ETL作业开发系统，其特征在于，所述配置文件包括用户自定义的作业文件。

3.如权利要求2所述的ETL作业开发系统，其特征在于，所述作业文件通过语法解析工具进行解析，得到所述解析结果，所述解析结果包括作业指令。

4.如权利要求3所述的ETL作业开发系统，其特征在于，所述对所述解析结果进行渲染且动态编译的步骤包括：
读取预先定义好的渲染变量；
使用所述渲染变量对所述作业指令进行实时渲染。

5.如权利要求4所述的ETL作业开发系统，其特征在于，所述动态编译包括将所述渲染后的作业指...

【专利技术属性】
技术研发人员：董加强，
申请(专利权)人：上海七牛信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人