The invention discloses a big data ETL task scheduling method and device. The method includes: scheduling scheme at least two ETL tasks in each stream ETL task scheduling scheme based on the corresponding flow; each ETL task flow corresponding to the scheduling of each of the ETL task flow, to ensure that only the same time at the same time to perform each task flow ETL. The invention also avoids the confusion of data execution leads to different cycles of the same ETL task flow, avoid data error, improve the accuracy of data, saving the system resources.
【技术实现步骤摘要】
大数据ETL任务调度方法及装置
本专利技术实施例涉及大数据处理技术,尤其涉及一种大数据ETL任务调度方法及装置。
技术介绍
大数据技术是当前各行各业争相推动和依赖的
尤其是在互联网、电子商务、消费金融等行业,日常需要运行数以万记的大数据ETL(Extraction-Transformation-Loading,数据抽取、转换、装载的过程)任务作为数据分析、业务决策的重要支撑。ETL任务需要按照业务情况配置对应的任务流,一个任务流可以看做一个具有根节点的有向无环图,任务之间有严格的先后顺序。常用的调度方案(如crontab等定时调度器),到指定时间即刻触发任务流运行,不考虑上一轮次调度流程是否完成,每个新轮次的任务流都是独立的一个过程。如图1所示,同个任务,不同轮次有可能会重叠运行,造成数据结果出错,管理混乱;不同轮次的多个任务同时运行,会造成系统资源耗尽,服务器崩溃。
技术实现思路
有鉴于此,本专利技术实施例提供一种大数据ETL任务调度方法及装置,以避免数据结果出错,节省系统资源。第一方面,本专利技术实施例提供了一种大数据ETL任务调度方法,所述方法包括:配置至少两个ETL任务流中每个ETL任务流对应的调度方案;根据每个ETL任务流对应的调度方案,对所述每个ETL任务流进行调度,以保证每个ETL任务流在同一时间只执行同一轮次。第二方面,本专利技术实施例还提供了一种大数据ETL任务调度装置,所述装置包括:调度方案配置模块,用于配置至少两个ETL任务流中每个ETL任务流对应的调度方案;ETL任务流调度模块,用于根据每个ETL任务流对应的调度方案,对所述每个 ...
【技术保护点】
一种大数据ETL任务调度方法,其特征在于,所述方法包括:配置至少两个ETL任务流中每个ETL任务流对应的调度方案;根据每个ETL任务流对应的调度方案,对所述每个ETL任务流进行调度,以保证每个ETL任务流在同一时间只执行同一轮次。
【技术特征摘要】
1.一种大数据ETL任务调度方法,其特征在于,所述方法包括:配置至少两个ETL任务流中每个ETL任务流对应的调度方案;根据每个ETL任务流对应的调度方案,对所述每个ETL任务流进行调度,以保证每个ETL任务流在同一时间只执行同一轮次。2.根据权利要求1所述的方法,其特征在于,根据每个ETL任务流对应的调度方案,对所述每个ETL任务流进行调度,包括:如果一个ETL任务流对应的调度方案为第一调度方案,则在该ETL任务流前一轮次的任务完成后,执行当前轮次的任务;和/或如果一个ETL任务流对应的调度方案为第二调度方案,则在到达该ETL任务流的周期调度时间时,清理掉前一轮次的任务后,执行当前轮次的任务。3.根据权利要求2所述的方法,其特征在于,在该ETL任务流前一轮次的任务完成后,执行当前轮次的任务,包括:S1、通过第一定时器轮询是否到达该ETL任务流的调度时间;S2、如果到达,则判断该ETL任务流的前一轮次的任务是否执行完毕;S3、如果没有执行完毕,则继续执行前一轮次的任务设定延迟时间,返回执行S1;S4、如果执行完毕,则执行当前轮次的任务,并根据前一轮次的任务流的执行时间确定当前轮次的任务流的周期调度时间。4.根据权利要求3所述的方法,其特征在于,根据前一轮次的任务的执行时间确定当前轮次的任务流的周期调度时间,包括:如果前一轮次的任务流的执行时间大于预设周期调度时间,则将前一轮次的任务流的执行时间确定为当前轮次的任务流的周期调度时间;如果前一轮次的任务流的执行时间不大于预设周期调度时间,则将所述预设周期调度时间确定为当前轮次的任务流的周期调度时间。5.根据权利要求2所述的方法,其特征在于,在到达该ETL任务流的周期调度时间时,清理掉前一轮次的任务后,执行当前轮次的任务,包括:通过第二定时器轮询是否到达该ETL任务流的周期调度时间;如果到达,则判断该ETL任务流的前一轮次的任务是否执行完毕;如果没有执行完毕,则杀掉前一轮次的所有任务,或者是取消前一轮次中未执行的任务并继续执行正在执行的任务,并执行当前轮次的任务;如果执行完毕,则执行当前轮次的任务。6.一种大数据ETL任务调度装置,其...
【专利技术属性】
技术研发人员:王雨春,
申请(专利权)人:深圳乐信软件技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。