一种支持可视化和流程化的大数据ETL调度系统技术方案

技术编号:16175761 阅读:219 留言:0更新日期:2017-09-09 03:00
本发明专利技术公开了一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响。本发明专利技术有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。

【技术实现步骤摘要】
一种支持可视化和流程化的大数据ETL调度系统
本专利技术涉及大数据处理
,特别涉及一种支持可视化和流程化的大数据ETL调度系统。
技术介绍
ETL(Extract-Transform-Load,提取、转换和加载)是BI(大数据)项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。大数据ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。大数据ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到大数据平台系统后,进行清洗、转换、集成,最后加载到大数据平台、数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。这个过程通常都需要在后台进行相关操作,且后台操作复杂,降低了ETL的开发速度和效率,同时对于集群来说可能存在着误操作的风险,大大增加企业项目实施成本。
技术实现思路
为解决上述问题,本专利技术提供了一种支持可视化和流程化的大数据ETL调度系统,其能够有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。本专利技术采用以下技术方案:一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统;所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库;所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果;所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。优选地,所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子模块,所述抽取配置子模块用于实现大数据抽取的可视化操作,所述清洗配置子模块用于实现大数据清洗的可视化操作,所述加载配置子模块用于实现大数据加载的可视化操作。优选地,所述ETL调度管理模块包括流程配置子模块、作业调度子模块及调度监控子模块,所述流程配置子模块用于提供ETL作业流程配置的可视化操作,生成ETL作业列表存储到作业配置数据库,以及从作业配置数据库中读取ETL作业列表,所述作业调度子模块连接流程配置子模块,用于实现ETL作业的定时调度工作,所述调度监控子模块用于对ETL作业执行过程进行监控,并生成作业监控结果。优选地,所述作业监控结果包括ETL作业的日志、状态、结果以及告警信息。优选地,所述大数据平台的组件包括HDFS、Hive、HBase、Solr、YARN、Oozie、Spark、Storm、Sqoop、Pig、Impala、Zookeeper。采用上述技术方案后,本专利技术与
技术介绍
相比,具有如下优点:本专利技术有效摒弃复杂的后台操作,极大提升了ETL的开发速度和效率,同时降低了企业项目实施的成本。附图说明图1为本专利技术结构示意图;图2为本专利技术大数据组件操作单元的工作流程示意图;图3为本专利技术ETL作业管理模块和ETL调度管理模块的工作流程示意图;图4为本专利技术ETL作业管理模块和ETL调度管理模块的工作流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。实施例一请参阅图1,本专利技术公开了一种支持可视化和流程化的大数据ETL调度系统,基于B/S架构实现,其包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:参考图1所示,所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统。大数据平台的组件包括HDFS、Hive、HBase、Solr、YARN、Oozie、Spark、Storm、Sqoop、Pig、Impala、Zookeeper。所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库。所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子模块,所述抽取配置子模块用于实现大数据抽取的可视化操作,所述清洗配置子模块用于实现大数据清洗的可视化操作,所述加载配置子模块用于实现大数据加载的可视化操作。所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果。所述ETL调度管理模块包括流程配置子模块、作业调度子模块及调度监控子模块,所述流程配置子模块用于提供ETL作业流程配置的可视化操作,生成ETL作业列表存储到作业配置数据库,以及从作业配置数据库中读取ETL作业列表,所述作业调度子模块连接流程配置子模块,用于实现ETL作业的定时调度工作,所述调度监控子模块用于对ETL作业执行过程进行监控,并生成作业监控结果。所述作业监控结果包括ETL作业的日志、状态、结果以及告警信息。所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。为便于更好的理解本专利技术,下面结合附图对本专利技术各模块的工作流程做进一步说明。参考图2所示,大数据组件操作单元的工作流程为:用户根据实际需要选择数据查询模块、组件脚本编辑模块、脚本执行监控模块进行可视化操作,并加载平台组件驱动模块,平台组件驱动模块读取大数据平台、本地业务系统及远程业务系统的数据信息。参考图3所示,ETL作业管理模块和ETL调度管理模块的工作流程为:用户通过ETL作业管理模块对大数据抽取、清洗、加载的配置进行可视化操作,并生成JSON或XML格式的作业配置文件,作业配置文件提交到平台组件驱动模块和系统驱动子模块,大数据平台、本地业务系统及远程业务系统基于作业配置文件进行ETL作业,系统驱动子模块将作业配置文件保存到作业配置数据库;ETL调度管理模块读取作业配置数据库的ETL作业列表,根据ETL作业列表进行作业调度,并对ETL作业执行过程进行监控。参考图4所示,系统管理模块的工作流程为:用户通过系统管理模块进行用户、角色、资源的管理以及访问权限控制,并通过系统驱动子模块将用户、角色、资源的管理信息以及访问权限保存到作业配置数据库。以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化本文档来自技高网
...
一种支持可视化和流程化的大数据ETL调度系统

【技术保护点】
一种支持可视化和流程化的大数据ETL调度系统,其特征在于,其基于B/S架构实现,包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统;所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库;所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果;所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。

【技术特征摘要】
1.一种支持可视化和流程化的大数据ETL调度系统,其特征在于,其基于B/S架构实现,包括大数据组件操作单元、ETL作业管理模块、ETL调度管理模块、系统管理模块及作业配置数据库,所述ETL作业管理模块、ETL调度管理模块与大数据组件操作单元彼此独立、互不影响,其中:所述大数据组件操作单元包括支持可视化操作的数据查询模块、组件脚本编辑模块、脚本执行监控模块、平台组件驱动模块、大数据平台、本地业务系统及远程业务系统;所述ETL作业管理模块用于对大数据抽取、清洗、加载的配置提供可视化操作,并生成JSON或XML格式作业配置文件进行提交或保存到作业配置数据库;所述ETL调度管理模块用于进行ETL作业的定时调度工作以及完成对ETL作业执行过程的监控,并生成作业监控结果;所述系统管理模块用于针对系统各模块提供用户、角色、资源的管理以及访问权限控制,其包括资源管理子模块、权限管理子模块及系统驱动子模块,所述驱动子模块连接所述作业配置数据库。2.如权利要求1所述的一种支持可视化和流程化的大数据ETL调度系统,其特征在于:所述ETL作业管理模块包括抽取配置子模块、清洗配置子模块、加载配置子...

【专利技术属性】
技术研发人员:陈思恩杨紫胜廖雅哲林振州
申请(专利权)人:科技谷厦门信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1