一种流任务和批任务一体化的分布式任务调度方法及系统技术方案

技术编号：35190876 阅读：21 留言：0更新日期：2022-10-12 18:09

本发明专利技术公开了一种流任务和批任务一体化的分布式任务调度方法，包括：Master节点和Worker节点注册；主和备Master孵化任务，分发任务，Master节点孵化出具体实例和任务实例，然后根据任务依赖关系，依次将任务实例分发给Worker节点；Worker节点收到消息后，将任务进行分类，通过本地任务线程池和远端任务线程池进行管理；当远端任务提交后，将远端任务转移到任务状态监测队列，从而释放任务提交线程，提升任务提交的并行度；在状态检查流程中，采用任务定时汇报机制，另外使用少量线程扫描防任务突发故障而来不及汇报状态情况。本发明专利技术不断优化任务状态检查机制，降低了资源的消耗，实现对流任务与批任务的统一化有效管理。实现对流任务与批任务的统一化有效管理。实现对流任务与批任务的统一化有效管理。

全部详细技术资料下载

【技术实现步骤摘要】
一种流任务和批任务一体化的分布式任务调度方法及系统

[0001]本专利技术属于大数据
，尤其涉及一种流任务和批任务一体化的分布式任务调度方法及系统。

技术介绍

[0002]在调度系统中，主要作用是定时，准确，高效触发任务启动，并且跟踪状态，直到结束，在大数据任务体系里，任务大致可以分为两类实时任务(流任务)，离线任务(批任务)。大数据主流引擎如Spark和Flink都提供了流任务和批任务的能力。离线任务：也称为批任务，一般在有限的时间内完成，对资源持有时间有限，通常不会超过小时级。实时任务：也称为流任务，任务会长时间运行，甚至一直运行，对资源也会一直持有。
[0003]不管是流任务和还是批任务，本质是处理数据，调度系统很重要的一个功能是有序的管理数据处理任务，比如常见的ETL(Extract
‑
Transform
‑
Load)任务，一定是先完成抽取数据，再进行业务处理，最后导出数据。而在现有的开源和公开的调度系统中，一般会将离线调度系统和实时任务管理系统分开管理，这个是由两种任务形态所决定的。
[0004]在现有开源的主流离线调度系统架构中，比如DolphinScheduler，XXL
‑
job，Quartz等任务，任务执行流程大致流程如图1，任务孵化提交实例后，交给线程池处理，线程池里的线程获取任务，初始化任务，运行任务，并提交任务给yarn，之后跟踪任务状态，直到正常结束或异常结束。线程监控了整个任务的状态。
[0005]对于实时...

【技术保护点】

【技术特征摘要】
1.一种流任务和批任务一体化的分布式任务调度方法，其特征在于，所述调度方法包括以下步骤：系统启动时Master节点和Worker向Zookeeper进行注册，Master节点之间通过Zookeeper选出主Master；主和备Master孵化任务，分发任务，用户创建DAG后，Master节点将DAG孵化出具体DAG实例和任务实例，然后根据任务依赖关系，依次将任务实例分发给Worker节点；Worker节点收到消息后，将任务进行分类，通过本地任务线程池和远端任务线程池进行管理；当远端任务提交后，将远端任务转移到任务状态监测队列，从而释放任务提交线程，提升任务提交的并行度；在状态检查流程中，采用主动汇报模式和防故障定时机制，共用少量线程完成大量任务的检查。2.根据权利要求1所述的流任务和批任务一体化的分布式任务调度方法，其特征在于，在任务中启动一个线程，定时向Worker汇报一次状态，相比开源的基于线程任务监控机制，将长时间的任务状态监控过程由一个线程和基于该线程的定时扫描，转化为队列里的一条记录和周期性消息。3.根据权利要求1所述的流任务和批任务一体化的分布式任务调度方法，其特征在于，所述任务包括Yarn的Spark任务或Flink任务，或Mapreduce任务。4.根据权利要求1所述的流任务和批任务一体化的分布式任务调度方法，其特征在于，Yarn集群故障情况下，Worker节点如果多个周期未收到任务状态消息，进行一次扫描，判断任务的状态。5.根据权利要求1所述的流任务和批任务一体化的分布式任务调度方法，其特征在于，将流任务和批任务进行统一管理后，批任...

【专利技术属性】
技术研发人员：陈奉刚，林庭毅，管贤春，屈军，贺年春，
申请(专利权)人：湖南兴盛优选电子商务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人