【技术实现步骤摘要】
一种ETL流程在分布式架构运行的方法
本专利技术涉及一种ETL流程在分布式架构运行的方法。
技术介绍
Storm是一个自由开源的,分布式的,可靠的,容错的数据流处理系统,擅长处理海量数据,适用于数据实时处理而非批处理。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简单特定的任务。Storm集群的输入流由一个被称作Spout的组件管理,Spout把数据传递给Bolt,Bolt要么把数据保存到某种存储器,要么把数据传递给其它的Bolt。现有技术如申请号(CN201810090048.4)的专利技术,一种完全基于分布式内存计算的ETL系统,本系统包括数据抽取模块、数据处理模块、数据整合模块、数据输出模块、元数据管理模块5大功能模块和一个ETL作业流程引擎;元数据管理模块,并输出元数据控制文件供ETL作业流程引擎使用;ETL作业流程引擎,读取元数据控制文件,计算各节点所处的层数,并将各作业节点按层数进行分层;ETL作业流程引擎按照由低层到高层的执行路径依次运行各层的ETL作业,最终完成ETL作业流程图中所有ETL作业的执行。本系统基于Spark和Alluxio技 ...
【技术保护点】
1.一种ETL流程在分布式架构运行的方法,其特征在于,包括如下步骤,步骤S1、识别各组件的类型,对于数据输入类的组件构造成Storm的Spout组件,其余类的组件构造成Storm的Blot组件,根据流程中组件间的连接关系,构造Storm的拓扑,配置各个组件需要的线程数;其中,Spout组件调用数据输入类的运行逻辑,获取数据并加入输出数据缓存队列,定时或当队列达到预定量时就推送到下一个组件;Bolt组件不断监听是否接收到数据传递Tuple,接收到时则调用其原有ETL组件的运行逻辑;步骤S2、发送拓扑至Storm集群里,使得Storm自动分配组件生成运行实例到集群的各个节点上; ...
【技术特征摘要】
1.一种ETL流程在分布式架构运行的方法,其特征在于,包括如下步骤,步骤S1、识别各组件的类型,对于数据输入类的组件构造成Storm的Spout组件,其余类的组件构造成Storm的Blot组件,根据流程中组件间的连接关系,构造Storm的拓扑,配置各个组件需要的线程数;其中,Spout组件调用数据输入类的运行逻辑,获取数据并加入输出数据缓存队列,定时或当队列达到预定量时就推送到下一个组件;Bolt组件不断监听是否接收到数据传递Tuple,接收到时则调用其原有ETL组件的运行逻辑;步骤S2、发送拓扑至Storm集群里,...
【专利技术属性】
技术研发人员:刘世荣,陈志雄,赖清鑫,
申请(专利权)人:福建南威软件有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。