一种ETL系统的高效流程编排方法及系统技术方案

技术编号：24517618 阅读：25 留言：0更新日期：2020-06-17 06:48

本发明专利技术公开了一种ETL系统的高效流程编排方法及系统，本方案基于分布式计算引擎Spark，将各个操作抽象化并封装为一个个插件，然后提供可视化的流程编排将插件根据处理逻辑串联起来形成有向无环图DAG。以实现对海量数据ETL处理。插件支持动态升级和扩展，只需实现定义的对应接口并上传。插件会动态加载，然后在流程编排界面便能使用该插件。解决了现有方案在处理海量数据时较慢、存在较高的门槛、不够灵活且管理分散不易分析其血缘关系的问题。

An efficient flow arrangement method and system of ETL System

全部详细技术资料下载

【技术实现步骤摘要】
一种ETL系统的高效流程编排方法及系统
本专利技术涉及数据库领域，特别涉及一种ETL系统的高效流程编排方法及系统。
技术介绍
随着90年代后期Internet的兴起与飞速发展，我们进入了一个新的时代，大量的信息和数据，迎面而来，用科学的方法去整理数据，从而从不同视角对企业经营各方面信息的精确分析、准确判断，比以往更为迫切,实施商业行为的有效性也比以往更受关注。使用这些技术建设的信息系统我们称为数据仓库系统。随着数据仓库技术应用的不断深入，近几年数据仓库技术得到长足的发展。典型的数据仓库系统，比如：经营分析系统，决策支持系统等等。也随着数据仓库系统带来的良好效果，各行各业的单位，已经能很好的接受“整合数据，从数据中找知识，运用数据知识、用数据说话”等新的关系到改良生产活动各环节、提高生产效率、发展生产力的理念。数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具。数据仓库技术也是一种达成“数据整合、知识管理”的有效手段。数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合。这是数据仓库技术特征的定位。现有的数据库的相关技术大多分为以下几类：1、传统的ETL工具，多使用集中式处理，海量数据处理较慢；2、提供编写SQL的入口；3、海量数据的ETL操作的定制化开发服务。实现以上相关技术方案大致如下：1、首先整理数据处理需求；2、根据数据结构将非结构化数据或半结构化数据定制开发整理为结构化数据；3、提供SQL编辑工具，然后使用SQL的方式实现...

【技术保护点】
1.一种ETL系统的高效流程编排方法，其特征在于：包括以下步骤：/nS1、用户端加载已经上传的所有插件；/nS2、用户根据处理逻辑流程对插件进行编排，将插件并串接为DAG；/nS3、用户端对DAG进行解析，配置DAG流程；/nS4、用户端将DAG流程提交至Spark集群，Spark集群执行DAG流程。/n

【技术特征摘要】
1.一种ETL系统的高效流程编排方法，其特征在于：包括以下步骤：
S1、用户端加载已经上传的所有插件；
S2、用户根据处理逻辑流程对插件进行编排，将插件并串接为DAG；
S3、用户端对DAG进行解析，配置DAG流程；
S4、用户端将DAG流程提交至Spark集群，Spark集群执行DAG流程。

2.根据权利要求1所述的一种ETL系统的高效流程编排方法，其特征在于：所述插件的开发方法包括以下步骤：
S101、在开发端搭建插件开发的脚手架；
S102、开发端执行脚手架后生成对应的代码框架模版；
S103、基于代码框架模版及用户需求编写插件的实现，生成对应的插件代码；
S104、将插件代码打包为jar包。

3.根据权利要求2所述的一种ETL系统的高效流程编排方法，其特征在于：所述将插件代码打包为jar包之前，对步骤S103中插件的实现进行相关单元测试。

4.根据权利要求1所述的一种ETL系统的高效流...

【专利技术属性】
技术研发人员：张艳清，查文宇，金日海，刘廷文，
申请(专利权)人：成都四方伟业软件股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人