一种ETL流程在分布式架构运行的方法技术

技术编号:20680046 阅读:41 留言:0更新日期:2019-03-27 18:35
本发明专利技术涉及一种ETL流程在分布式架构运行的方法。通过采用Strom技术,以及在不修改组件原有逻辑,在发布运行的时候,将组件构造成Strom的Spout、Blot,然后构建拓扑结构到Storm集群运行,可以支持ETL流程能在原有传统单节点模式下运行也可以切换到分布式架构下运行。

【技术实现步骤摘要】
一种ETL流程在分布式架构运行的方法
本专利技术涉及一种ETL流程在分布式架构运行的方法。
技术介绍
Storm是一个自由开源的,分布式的,可靠的,容错的数据流处理系统,擅长处理海量数据,适用于数据实时处理而非批处理。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm集群的输入流由一个被称作Spout的组件管理,Spout把数据传递给Bolt,Bolt要么把数据保存到某种存储器,要么把数据传递给其它的Bolt。现有技术如申请号(CN201810090048.4)的专利技术,一种完全基于分布式内存计算的ETL系统,本系统包括数据抽取模块、数据处理模块、数据整合模块、数据输出模块、元数据管理模块5大功能模块和一个ETL作业流程引擎;元数据管理模块,并输出元数据控制文件供ETL作业流程引擎使用;ETL作业流程引擎,读取元数据控制文件,计算各节点所处的层数,并将各作业节点按层数进行分层;ETL作业流程引擎按照由低层到高层的执行路径依次运行各层的ETL作业,最终完成ETL作业流程图中所有ETL作业的执行。本系统基于Spark和Alluxio技术,提高了系统架构的本文档来自技高网...

【技术保护点】
1.一种ETL流程在分布式架构运行的方法,其特征在于,包括如下步骤,步骤S1、识别各组件的类型,对于数据输入类的组件构造成Storm的Spout组件,其余类的组件构造成Storm的Blot组件,根据流程中组件间的连接关系,构造Storm的拓扑,配置各个组件需要的线程数;其中,Spout组件调用数据输入类的运行逻辑,获取数据并加入输出数据缓存队列,定时或当队列达到预定量时就推送到下一个组件;Bolt组件不断监听是否接收到数据传递Tuple,接收到时则调用其原有ETL组件的运行逻辑;步骤S2、发送拓扑至Storm集群里,使得Storm自动分配组件生成运行实例到集群的各个节点上;步骤S3、Spout...

【技术特征摘要】
1.一种ETL流程在分布式架构运行的方法,其特征在于,包括如下步骤,步骤S1、识别各组件的类型,对于数据输入类的组件构造成Storm的Spout组件,其余类的组件构造成Storm的Blot组件,根据流程中组件间的连接关系,构造Storm的拓扑,配置各个组件需要的线程数;其中,Spout组件调用数据输入类的运行逻辑,获取数据并加入输出数据缓存队列,定时或当队列达到预定量时就推送到下一个组件;Bolt组件不断监听是否接收到数据传递Tuple,接收到时则调用其原有ETL组件的运行逻辑;步骤S2、发送拓扑至Storm集群里,...

【专利技术属性】
技术研发人员:刘世荣陈志雄赖清鑫
申请(专利权)人:福建南威软件有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1