当前位置: 首页 > 专利查询>中山大学专利>正文

计算集群资源调度方法、电子设备及可读存储介质技术

技术编号:38824637 阅读:23 留言:0更新日期:2023-09-15 20:04
本申请公开了一种计算集群资源调度方法、电子设备及可读存储介质,本申请融合调度器对各计算集群中各混合计算节点面向两种调度器时的使用状态进行维护,避免一个混合计算节点同时可被两种调度器调用造成资源的冲突。融合调度器还将根据第一调度器中目标作业任务的排队情况生成融合作业任务,融合作业任务会被标记为第二调度器的目标作业,使得融合调度器可向第二调度器申请混合计算节点,申请到的混合计算节点的第一使用状态由禁用状态被调整为启用状态,以满足第一调度器的计算需求,从而提高资源利用率。由于只是增加了上层的融合调度器,无需对底层调度器进行代码上的修改,故增加了本方案的通用性。故增加了本方案的通用性。故增加了本方案的通用性。

【技术实现步骤摘要】
计算集群资源调度方法、电子设备及可读存储介质


[0001]本申请涉及计算机
,尤其涉及一种计算集群资源调度方法、电子设备及可读存储介质。

技术介绍

[0002]随着计算机技术的不断发展,高性能计算在科学研究和工程技术中的作用越来越重要。传统的高性能计算集群,大部分都使用slurm(Simple Linux Utility for Resource Management,资源管理系统)作为底层的资源管理和调度系统。随着人工智能研究的快速发展,AI(Artificial Intelligence,人工智能)类的应用和计算需求层出不穷,而这些应用大部分都是以容器的方式运行在kubernetes(k8s,一个开源的容器编排平台)集群中。近年来,HPC(High Performance Computing,高性能计算)与AI的融合趋势日益明显,而高性能计算集群有很大一部分都采用了具备CPU(Central Processing Unit,中央处理器)和加速卡(GPU,Graphics Processing Unit,图像处理器)的异构架构,其硬件资本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算集群资源调度方法,其特征在于,应用于计算集群的融合调度器,所述计算集群还包括有第一调度器和第二调度器,计算集群资源包括有各混合计算节点,其中,第一调度器为slurm调度器或k8s调度器,所述第二调度器为slurm调度器和k8s调度器中除所述第一调度器外的另一种,所述slurm调度器的目标作业任务为HPC作业任务,所述k8s调度器的目标作业任务为容器作业任务;所述方法包括以下步骤:维护各所述混合计算节点在所述第一调度器的第一使用状态和在所述第二调度器中的第二使用状态,其中,任意一所述混合计算节点的第一使用状态和第二使用状态中仅存在一个为启用状态,所述第一使用状态为启用状态或者禁用状态,所述第二使用状态为启用状态或者禁用状态;确定所述第一调度器处于排队状态的目标作业任务中排队时长超过预设排队时长阈值的待调度目标作业任务,并基于所述待调度目标作业任务生成新的融合作业任务,其中,融合作业任务被标记为所述第二调度器的目标作业任务;基于所述新的融合作业任务向所述第二调度器申请混合计算节点,并返回执行所述维护各所述混合计算节点在所述第一调度器的第一使用状态和在所述第二调度器中的第二使用状态的步骤,其中,申请到的混合计算节点的第一使用状态由禁用状态调整为启用状态,所述申请到的混合计算节点的第二使用状态由启用状态调整为禁用状态。2.如权利要求1所述的计算集群资源调度方法,其特征在于,所述融合调度器还包括有融合调度数据库,所述融合调度数据库用于记录各融合作业任务的任务状态,各所述混合计算节点中包括有第一混合计算节点;所述维护各所述混合计算节点在所述第一调度器的第一使用状态和在所述第二调度器中的第二使用状态的步骤包括:从所述融合调度数据库中查询未执行完成的融合作业任务得到第一融合作业任务信息;从所述第二调度器中查询处于排队中或者运行中的融合作业任务得到第二融合作业任务信息;检测所述第一融合作业任务信息和所述第二融合作业任务信息;若存在第一融合作业任务,则确定所述第一融合作业任务在所述第二调度器中的任务状态,其中,所述第一融合作业任务为同时存在于所述第一融合作业任务信息和所述第二融合作业任务信息的融合作业任务;若所述任务状态为运行状态,则将所述第一融合作业任务以及所述第一融合作业任务关联的第一混合计算节点,关联更新至所述融合调度数据库,并将所述第一混合计算节点的第二使用状态调整为禁用状态;判断所述第一混合计算节点未运行实际作业任务的持续时长是否超过预设持续时长阈值;若未超过所述预设持续时长阈值,则去除所述第一混合计算节点在所述第一调度器中的禁止调用和禁止运行的污点,以将所述第一混合计算节点的第一使用状态调整为启用状态,其中,所述污点用于表示计算节点禁止调用或计算节点禁止运行;若超过所述预设持续时长阈值,则将所述第一混合计算节点在所述第一调度器中打上
所述禁止调用的污点,以将所述第一混合计算节点的第一使用状态调整为禁用状态,并在所述融合调度数据库中将所述第一融合作业任务的任务状态更新为资源回收状态。3.如权利要求2所述的计算集群资源调度方法,其特征在于,在所述确定所述第一融合作业任务在所述第二调度器中的任务状态的步骤之后,所述方法包括:若所述任务状态为资源回收状态,则判断所述第一混合计算节点中是否存在运行中的实际作业任务;若存在运行中的实际作业任务,则执行去除所述第一第混合计算节点在所述第一调度器中的禁止调用和禁止运行的污点的步骤,并将所述第一融合作业任务的任务状态在所述融合调度数据库中更新为运行状态;若不存在运行中的实际作业任务,则将所述第一混合计算节点在所述第一调度器中打上所述禁止运行的污点,以将所述第一混合计算节点的第一使用状态调整为禁用状态,并将所述第一融合作业任务的任务状态在所述融合调度数据库中更新为结束状态;在所述第二调度器中结束所述第一融合作业任务,并将所述第一混合计算节点的第二使用状态调整为启用状态,以将所述第一混合计算节点回收至所述第二调度器。4.如权利要求3所述的计算集群资源调度方法,其特征在于,各所述混合计算节点中包括第二混合计算节点和第三混合计算节点,在所述检测所述第一融合作业任务信息和所述第二融合作业任务信息的步骤之后,所述方法还包括:若存在第二融合作业任务,则判断所述第二融合作业任务是否关联第二混合计算节点,其中,所述第二融合作业任务为存在于所述第一融合作业信息且不存在于所述第二融合作业信息中的融合作业任务;若不存在所述第二混合计算节点,则判断所述第二调度器的历史记录中是否存在与所述第二融合作业任务关联的第三混合计算节点;若存在所述第三混合计算节点,则将所述第三混合计算节点在所述第一调度器中打上禁止运行的污点,以使所述第三混合计算节点的第一使用状态为禁用状态,并将所述第二融...

【专利技术属性】
技术研发人员:郭贵鑫钟康游李江刘海张烨禧陈烁锐卢宇彤
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1