组件化大数据处理方法、系统及计算机可读存储介质技术方案

技术编号:20448750 阅读:24 留言:0更新日期:2019-02-27 02:53
本发明专利技术公开了一种组件化大数据处理方法、系统及计算机可读存储介质。所述组件化大数据处理方法包括:接收用户的编排命令,根据所述编排命令生成ETL作业;将所述ETL作业提交至大数据集群;发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。通过本发明专利技术,用户通过简单操作即可完成ETL作业编排,大大降低了技术难度,解决了现有的非组件化大数据ETL技术需要用户硬编码实现计算逻辑的问题,以及计算逻辑无法复用的问题。

COMPONENT LARGE DATA PROCESSING METHOD, SYSTEM AND COMPUTER READABLE MEDIUM

The invention discloses a component large data processing method, a system and a computer readable storage medium. The componentized large data processing method includes receiving user's choreography commands, generating ETL jobs according to the choreography commands, submitting the ETL jobs to the large data set, and sending execution commands to the large data set for running the ETL jobs in the distributed engine of the large data set. By the invention, the user can complete ETL job arrangement by simple operation, greatly reducing the technical difficulty, solving the problem that the existing non-component large data ETL technology requires the user to hard code to realize the calculation logic, and the problem that the calculation logic can not be reused.

【技术实现步骤摘要】
组件化大数据处理方法、系统及计算机可读存储介质
本专利技术涉及基于大数据的ETL
,尤其涉及组件化大数据处理方法、系统及计算机可读存储介质。
技术介绍
随着计算机技术和互联网的高速发展,计算机应用越来越普及,其规模,范围和深度也在不断的扩大,尤其是近些年来,随着大数据技术的不断成熟,大数据分析技术的发展和广泛应用,海量数据的采集,清洗,存储就成为其分析的基础。大数据ETL技术为满足当前的海量数据采集,清洗,存储要求提供了技术保障。当前已有的ETL技术方案主要存在如下几种缺点:(1)、非组件化,所有的ETL计算逻辑都需要用户自定义,使用不方便。本专利技术中ETL计算逻辑封装于各个组件中(2)、基于大数据引擎计算,但是需要使用专用的大数据开发语言进行作业开发,且针对不同的大数据计算引擎,需要使用不同的开发语言,技术难度较大。(3)、开发的ETL计算逻辑不具有通用性,即无法在不同的应用场景下复用,也无法兼容不同的大数据计算引擎。
技术实现思路
本专利技术的主要目的在于提供一种组件化大数据处理方法、系统及计算机可读存储介质,旨在解决现有的ETL技术方案中存在的上述技术问题。为实现上述目的,本专利技术提供一种组件化大数据处理方法,包括:接收用户的编排命令,根据所述编排命令生成ETL作业;将所述ETL作业提交至大数据集群;发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。可选的,所述接收用户的编排命令,根据所述编排命令生成ETL作业包括:接收用户的编排命令,根据所述编排命令从用户操作界面确定对应的ETL作业组件;根据所述编排命令确定所述ETL作业组件的执行顺序,生成ETL作业。可选的,所述ETL作业组件中包含基于ApacheBeam技术封装的满足ETL计算要求的计算逻辑。可选的,所述将所述ETL作业提交至大数据集群包括:根据所述ETL作业生成对应的配置文件,将所述配置文件及相关的处理依赖信息提交至大数据集群。可选的,该方法还包括:定时获取所述ETL作业在所述大数据集群的分布式引擎中的运行状态,并输出所述运行状态对应的状态信息。可选的,该方法还包括:当所述ETL作业在所述大数据集群的分布式引擎中运行完成时,接收来自大数据集群反馈的完成信息,根据所述完成信息,输出提示信息。此外,为实现上述目的,本专利技术还提供一种组件化大数据处理系统,所述组件化大数据处理系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的组件化大数据处理程序,所述组件化大数据处理程序被所述处理器执行时实现如上所述的组件化大数据处理方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有组件化大数据处理程序,所述组件化大数据处理程序被处理器执行时实现如上所述的组件化大数据处理方法的步骤。本专利技术中,当接收到用户的编排命令时,根据该编排命令生成ETL作业,将ETL作业提交至大数据集群,当接收到执行命令时,在大数据集群的分布式引擎中运行ETL作业。通过本专利技术技术方案,支持ETL作业在大数据集群上执行,充分利用大数据集群的分布式计算能力进行数据处理,满足处理海量数据的要求,解决了现有的内存式ETL工具使用内存计算存在的效率瓶颈;用户通过简单操作即可完成ETL作业编排,大大降低了技术难度,解决了现有的非组件化大数据ETL技术需要用户硬编码实现计算逻辑的问题,以及计算逻辑无法复用的问题。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的系统结构示意图;图2为本专利技术组件化大数据处理方法第一实施例的流程示意图;图3为编排ETL作业组件一实施例的场景示意图;图4为本专利技术组件化大数据处理方法第二实施例的流程示意图;图5为本专利技术组件化大数据处理方法一实施例的框架示意图;图6为本专利技术终端一实施例的功能模块示意图;图7为本专利技术大数据集群一实施例的功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境的系统结构示意图。本专利技术实施例系统包括终端和大数据集群,终端可以是PC,也可以是智能手机、平板电脑、便携计算机等终端设备;大数据集群可以是大数据spark集群、Hadoop集群。如图1所示,该系统可以包括:处理器1001,例如CPU,终端1004,大数据集群1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的系统结构并不构成对系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及大数据处理程序。在图1所示的系统中,处理器1001可以用于调用存储器1005中存储的组件化大数据处理程序,并执行以下操作:接收用户的编排命令,根据所述编排命令生成ETL作业;将所述ETL作业提交至大数据集群;发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。进一步地,处理器1001可以调用存储器1005中存储的组件化大数据处理程序,还执行以下操作:接收用户的编排命令,根据所述编排命令从用户操作界面确定对应的ETL作业组件;根据所述编排命令确定所述ETL作业组件的执行顺序,生成ETL作业。进一步地,处理器1001可以调用存储器1005中存储的组件化大数据处理程序,还执行以下操作:所述ETL作业组件中包含基于ApacheBeam技术封装的满足ETL计算要求的计算逻辑。进一步地,处理器1001可以调用存储器1005中存储的组件化大数据处理程序,还执行以下操作:根据所述ETL作业生成对应的配置文件,将所述配置文件及相关的处理依赖信息提交至大数据集群。进一步地,处理器1001可以调用存储器1005中存储的组件化大数据处理程序,还执行以下操作:定时获取所述ETL作业在所述大数据集群的分布式引擎中的运行状态,并输出所述运行状态对应的状态信息。进一步地,处理器1001可以调用存储器1005中存储的组件化大数据处理程序,还执行以下操作:当所述ETL作业在所述大数据集群的分布式引擎中运行完成时,接收来自大数据集群反馈的完成信息,根据所述完成信息,输出提示信息。参照图2,图2为本专利技术组件化大数据处理方法第一实施例的流程示意图。在一实施例中,组件化大数据处理方法应用于终端,组件化大数据处理方法包括:步骤S10,接收用户的编排命令,根据所述编排命令生成ETL作业;步骤S20,将所述ETL作业提交至大数据集群;步骤S30,发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。本实施例中,终端可以是PC,也可以是智能手机、平板电脑、便携计算机等终端设备。在本实施例中,终端上的用户界面呈现有使用ApacheBeam技术封装了一系列满足各种ETL计算要求对应的计算逻辑本文档来自技高网...

【技术保护点】
1.一种组件化大数据处理方法,其特征在于,包括:接收用户的编排命令,根据所述编排命令生成ETL作业;将所述ETL作业提交至大数据集群;发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。

【技术特征摘要】
1.一种组件化大数据处理方法,其特征在于,包括:接收用户的编排命令,根据所述编排命令生成ETL作业;将所述ETL作业提交至大数据集群;发送执行命令至大数据集群,以供在大数据集群的分布式引擎中运行所述ETL作业。2.如权利要求1所述的组件化大数据处理方法,其特征在于,所述接收用户的编排命令,根据所述编排命令生成ETL作业包括:接收用户的编排命令,根据所述编排命令从用户操作界面确定对应的ETL作业组件;根据所述编排命令确定所述ETL作业组件的执行顺序,生成ETL作业。3.如权利要求2所述的组件化大数据处理方法,其特征在于,所述ETL作业组件中包含基于ApacheBeam技术封装的满足ETL计算要求的计算逻辑。4.如权利要求1所述的组件化大数据处理方法,其特征在于,所述将所述ETL作业提交至大数据集群包括:根据所述ETL作业生成对应的配置文件,将所述配置文件及相关的处理依赖信息提交至大数据集群。5.如权利要求1所述的组件化大数据处理方法,其特征在于,该方法还包括:定时获取所述ETL作业在所述大数据集群的分布式引擎中的运行状态,并输出所述运行状态对应的状态信息。6.如权利要求1所述的组件化大数据处理方法,其特征在于,该方法还包括:当所述ETL作业在所述大数据集群的分布式引擎中运行完成...

【专利技术属性】
技术研发人员:胡德莲
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1