一种基于大数据计算引擎的ETL作业开发系统和计算机设备技术方案

技术编号:29526421 阅读:38 留言:0更新日期:2021-08-03 15:12
本申请实施例属于大数据技术领域,涉及一种基于大数据计算引擎的ETL作业开发系统和一种计算机设备,系统包括:配置文件输入及解析子系统,用于输入待进行ETL作业开发的配置文件,然后将所述配置文件进行解析,得到解析结果;渲染及注册子系统,用于对所述解析结果进行渲染和动态编译,然后向大数据计算引擎进行注册;执行子系统,用于调用所述注册后的大数据计算引擎进行ETL作业开发。采用配置式的开发方式和动态解析渲染ETL作业指令,并结合大数据计算引擎形成分布式的大数据处理系统,可以减少重复性劳动、缩短开发流程,并降低了开发和运维的难度。

【技术实现步骤摘要】
一种基于大数据计算引擎的ETL作业开发系统和计算机设备
本专利技术涉及大数据
,尤其涉及一种基于大数据计算引擎的ETL作业开发系统和计算机设备。
技术介绍
当前,海量的数据分析是非常常见的互联网业务场景,这些海量数据可能存储于离线数据源(如HDFS)或实时数据源(如KAFKA),在进行一些比较常见的数据ETL(Extract-Transform-Load,抽取-转换-加载)操作时需要将数据进行聚合、累加或者过滤,并写入外部存储系统比如HDFS、RDS或KAFKA等。开发人员会利用一些常见的大数据框架,如Flink或Spark等,然后结合具体的数据处理业务实现上述ETL过程,这要求其必须非常熟悉Flink或Spark的API接口且熟悉一些常见的编程语言,如Java或Scala等,并且每个数据处理需求都要建立特定的项目,重复性劳动较多、开发流程较长,无法统一部署,这给开发和运维带来很大困难。
技术实现思路
本申请实施例的目的在于提出一种基于大数据计算引擎的ETL作业开发系统,以降低大数据处理过程中开发和运维的难度。本文档来自技高网...

【技术保护点】
1.一种基于大数据计算引擎的ETL作业开发系统,其特征在于,包括:/n配置文件输入及解析子系统,用于输入待进行ETL作业开发的配置文件,然后将所述配置文件进行解析,得到解析结果;/n渲染及注册子系统,用于对所述解析结果进行渲染和动态编译,然后向大数据计算引擎进行注册;/n执行子系统,用于调用所述注册后的大数据计算引擎进行ETL作业开发。/n

【技术特征摘要】
1.一种基于大数据计算引擎的ETL作业开发系统,其特征在于,包括:
配置文件输入及解析子系统,用于输入待进行ETL作业开发的配置文件,然后将所述配置文件进行解析,得到解析结果;
渲染及注册子系统,用于对所述解析结果进行渲染和动态编译,然后向大数据计算引擎进行注册;
执行子系统,用于调用所述注册后的大数据计算引擎进行ETL作业开发。


2.如权利要求1所述的ETL作业开发系统,其特征在于,所述配置文件包括用户自定义的作业文件。


3.如权利要求2所述的ETL作业开发系统,其特征在于,所述作业文件通过语法解析工具进行解析,得到所述解析结果,所述解析结果包括作业指令。


4.如权利要求3所述的ETL作业开发系统,其特征在于,所述对所述解析结果进行渲染且动态编译的步骤包括:
读取预先定义好的渲染变量;
使用所述渲染变量对所述作业指令进行实时渲染。


5.如权利要求4所述的ETL作业开发系统,其特征在于,所述动态编译包括将所述渲染后的作业指...

【专利技术属性】
技术研发人员:董加强
申请(专利权)人:上海七牛信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1