The invention discloses a component large data processing method, a system and a computer readable storage medium. The componentized large data processing method includes receiving user's choreography commands, generating ETL jobs according to the choreography commands, submitting the ETL jobs to the large data set, and sending execution commands to the large data set for running the ETL jobs in the distributed engine of the large data set. By the invention, the user can complete ETL job arrangement by simple operation, greatly reducing the technical difficulty, solving the problem that the existing non-component large data ETL technology requires the user to hard code to realize the calculation logic, and the problem that the calculation logic can not be reused.
【技术实现步骤摘要】
组件化大数据处理方法、系统及计算机可读存储介质
本专利技术涉及基于大数据的ETL
,尤其涉及组件化大数据处理方法、系统及计算机可读存储介质。
技术介绍
随着计算机技术和互联网的高速发展,计算机应用越来越普及,其规模,范围和深度也在不断的扩大,尤其是近些年来,随着大数据技术的不断成熟,大数据分析技术的发展和广泛应用,海量数据的采集,清洗,存储就成为其分析的基础。大数据ETL技术为满足当前的海量数据采集,清洗,存储要求提供了技术保障。当前已有的ETL技术方案主要存在如下几种缺点:(1)、非组件化,所有的ETL计算逻辑都需要用户自定义,使用不方便。本专利技术中ETL计算逻辑封装于各个组件中(2)、基于大数据引擎计算,但是需要使用专用的大数据开发语言进行作业开发,且针对不同的大数据计算引擎,需要使用不同的开发语言,技术难度较大。(3)、开发的ETL计算逻辑不具有通用性,即无法在不同的应用场景下复用,也无法兼容不同的大数据计算引擎。
技术实现思路
本专利技术的主要目的在于提供一种组件化大数据处理方法、系统及计算机可读存储介质,旨在解决现有的ETL技术方案中存在的上述技术问题。为实现上述目的,本专利技术提供一种组件化大数据处理方法,包括:接收用户的编排命令,根据所述编排命令生成ETL作业;将所述ETL作业提交至大数据集群;发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。可选的,所述接收用户的编排命令,根据所述编排命令生成ETL作业包括:接收用户的编排命令,根据所述编排命令从用户操作界面确定对应的ETL作业组件;根据所述编排命令确定所述ET ...
【技术保护点】
1.一种组件化大数据处理方法,其特征在于,包括:接收用户的编排命令,根据所述编排命令生成ETL作业;将所述ETL作业提交至大数据集群;发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。
【技术特征摘要】
1.一种组件化大数据处理方法,其特征在于,包括:接收用户的编排命令,根据所述编排命令生成ETL作业;将所述ETL作业提交至大数据集群;发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。2.如权利要求1所述的组件化大数据处理方法,其特征在于,所述接收用户的编排命令,根据所述编排命令生成ETL作业包括:接收用户的编排命令,根据所述编排命令从用户操作界面确定对应的ETL作业组件;根据所述编排命令确定所述ETL作业组件的执行顺序,生成ETL作业。3.如权利要求2所述的组件化大数据处理方法,其特征在于,所述ETL作业组件中包含基于ApacheBeam技术封装的满足ETL计算要求的计算逻辑。4.如权利要求1所述的组件化大数据处理方法,其特征在于,所述将所述ETL作业提交至大数据集群包括:根据所述ETL作业生成对应的配置文件,将所述配置文件及相关的处理依赖信息提交至大数据集群。5.如权利要求1所述的组件化大数据处理方法,其特征在于,该方法还包括:定时获取所述ETL作业在所述大数据集群的分布式引擎中的运行状态,并输出所述运行状态对应的状态信息。6.如权利要求1所述的组件化大数据处理方法,其特征在于,该方法还包括:当所述ETL作业在所述大数据集群的分布式引擎中运行完成...
【专利技术属性】
技术研发人员:胡德莲,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。