DAG作业调度和集群管理的方法、系统及装置制造方法及图纸

技术编号:37380200 阅读:42 留言:0更新日期:2023-04-27 07:22
本发明专利技术公开了一种DAG作业调度和集群管理的方法、系统及装置,包括,任务管理模块和集群管理模块,所述任务管理模块和集群管理模块连接;所述任务管理模块用于接收并解析DAG作业,将解析DAG作业后的子任务调度到合适的计算节点中;集群管理模块用于维护集群节点状态和控制集群的变更操作。本发明专利技术可以实现DAG作业调度和集群管理。度和集群管理。度和集群管理。

【技术实现步骤摘要】
DAG作业调度和集群管理的方法、系统及装置


[0001]本专利技术涉及DAG作业调度和集群管理领域,尤其是涉及一种DAG作业调度和集群管理的方法、系统及装置。

技术介绍

[0002]当前kubernetes的调度策略是串行、独立地调度每一个Pod,可以简单分为两个过程:节点过滤阶段和节点打分阶段。在节点过滤阶段,会筛选出集群中所有能够满足Pod需求(CPU、内存等)的节点从而得到一个节点列表;在节点打分阶段,根据一定的打分规则去评价前述节点列表中每一个节点,选择最合适的节点去调度Pod。
[0003]kubernetes本身的调度方法较为基础,主要针对单个任务或者应用容器进行调度,而没有考虑到类似于DAG作业等的复杂场景,导致调度效率低下,严重影响了作业的完成时间和计算资源的利用率,降低了用户感知的服务质量。因此,在kubernetes中,设计有效的调度技术仍然是一个悬而未决的问题。同时,由于kubernetes不会根据当前的待执行的任务数量去自动地进行节点管理。例如,当节点负载过高、任务调度失败时不会去尝试进行节点扩展;而当节点负载低本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种DAG作业调度和集群管理的系统,其特征在于,包括,任务管理模块和集群管理模块,所述任务管理模块和集群管理模块连接;所述任务管理模块用于接收并解析DAG作业,将解析DAG作业后的子任务调度到合适的计算节点中;集群管理模块用于通过维护集群节点状态和控制集群的变更操作与任务管理模块交互。2.根据权利要求1所述的系统,其特征在于,所述任务管理模块具体用于:接收并解析DAG作业,采用递归的方式从作业的首任务开始计算每个任务的最晚开始和完成时间和优先级,对用户提交的作业完成解析后更新任务队列,将解析DAG作业后的子任务调度到合适的计算节点中。3.根据权利要求1所述的系统,其特征在于,所述任务管理模块具体用于对DAG作业中的任务进行遍历,如果两个子任务一和子任务二存在直接的数据依赖关系,子任务一计算完成后需要传输数据到子任务二,且子任务二是子任务一的唯一直接后序任务,子任务一是子任务二的唯一直接前序任务,那么则将两个子任务进行聚类,视为一个任务,聚类后任务的计算开销是两个子任务计算开销之和,聚类后任务的前序任务和后序任务分别为子任务一的前序任务的子任务二的后序任务,对DAG作业不断执行聚类操作直到没有新的聚类任务产生;采用递归的方式从作业的首任务开始计算每个任务的最晚开始和完成时间和优先级;遍历DAG作业解析后得到的全部任务,如果任务没有前序任务则插入到就绪队列当中等待调度器进行分配,否则插入到等待队列之中,在集群中有任务完成计算之后也会进行等待队列更新,某个任务计算完成后,系统检查等待队列中是否存在完成任务的后序任务,如果存在则对其状态进行更新;判断任务状态更新后是否满足执行条件,所述执行条件为任务所有的前序任务是否均已执行完成,若满足则将其加入就绪队列等待调度;在任务调度的顺序上,依据任务就绪队列的状态来确定,首先遍历任务就绪队列,判断是否存在紧急任务,即任务的最晚开始时间已经小于当前时间,若存在则立即对该任务进行调度;完成对紧急任务的排序后,根据剩下任务的优先级来按序调度。4.根据权利要求3所述的系统,其特征在于,所述集群管理模块具体用于:节点代理和中心服务器周期性的通过RPC进行交互;节点代理将自身状态上报到中心服务器,节中心服务器将期望的节点状态回复给对应的节点代理;当节点租赁时间结束需要释放节点计算资源时,对该节点执行下线操作;中心服务器将该节点的期望状态置为下线状态,并在下一次对该节点代理的上报信息的回复中写入新的期望状态;节点代理收到信息后开始改变节点上的kubernetes相关服务,完成后将新的节点状态上报到中心服务器,完成节点下线;发送扩容操作请求,集群管理模块则对目标节点执行上线线操作,中心服务器修改节点期望状态

回复节点上报信息

节点代理修改节点的kubernetes服务状态

节点代理上报节点信息。5.一种DAG作业调度和集群管理的方法,其特征在于,包括,S1、通过任务管理模块接收并解析DAG作业,将解析DAG作业后的子任务调度到合适的计算节点中;
S2、通过集群管理模块维护集群节点状态和控制集群的变更操作与任务管理模块交互。6.根据权利要求5所述的方法,其...

【专利技术属性】
技术研发人员:蒲菊华孟巧岚陈烨轩王元宏
申请(专利权)人:北京航空航天大学杭州创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1