一种作业自动化调度方法及装置、系统、设备、存储介质制造方法及图纸

技术编号:39416267 阅读:13 留言:0更新日期:2023-11-19 16:07
本申请公开了一种作业自动化调度方法及装置、系统、设备、存储介质,涉及计算机技术领域,解决了前作业调度系统的效能较低的问题。该方法包括:算网门户获取第一级作业队列中优先级最高的待执行作业的作业信息。将算力资源需求、调度策略要求和使用的应用程序名称发送至算网大脑。算网大脑接收算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用程序名称。根据算力资源需求、调度策略要求和使用的应用程序名称,确定目标计算集群。将目标计算集群的集群信息发送至算网门户。算网门户接收算网大脑发送的目标计算集群的集群信息。将作业信息发送至目标计算集群对应的调度器,以使目标调度器将作业信息转发至目标计算集群。计算集群。计算集群。

【技术实现步骤摘要】
一种作业自动化调度方法及装置、系统、设备、存储介质


[0001]本申请涉及计算机
,尤其涉及一种作业自动化调度方法及装置、系统、设备、存储介质。

技术介绍

[0002]当前业界衡量作业调度系统的效能通常有三个指标:一是作业的吞吐率,即单位时间内完成作业的数量;二是计算资源的利用率;三是对作业调度的公平性。
[0003]随着建成投产的计算集群的数量增多,各计算集群的资源利用率存在不均衡的情况和不同时段的潮汐效应,各计算集群之间的协同调度需求开始呈现。在多个计算集群组成的一个大的计算系统中,即多个计算集群并网时,如果沿用原有的作业调度方法,将用户提交的作业任务直接派发到一个计算集群进行执行,若该计算集群的计算资源不足,则上述作业将会排队等待,直至该计算集群相应队列的空闲计算资源满足作业运行需求,上述作业才能够在该计算集群上运行。在上述作业排队等待过程中,即使其他计算集群的计算资源空闲,处于排队状态的作业也无法被重新调度到其他计算集群的队列上运行,这将导致整个作业调度系统的效能降低。

技术实现思路

[0004]本申请提供了一种作业自动化调度方法及装置、系统、设备、存储介质,用于解决目前作业调度系统的效能较低的问题。
[0005]为达到上述目的,本申请采用如下技术方案:
[0006]第一方面,本申请提供了一种作业自动化调度方法,应用于算网大脑,算网大脑部署于作业自动化调度系统。作业自动化调度系统,还包括:算网门户、至少一个调度器、至少一个计算集群。算网大脑与算网门户通信连接。算网大脑与至少一个调度器通信连接。算网门户与至少一个调度器通信连接。至少一个调度器与至少一个计算集群一一对应。调度器与计算集群通信连接。作业自动化调度方法,包括:算网大脑接收算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用程序名称。算力资源需求、调度策略要求和使用的应用程序名称为算网门户从第一作业队列中优先级最高的待执行作业的作业信息中获取的。算网大脑根据算力资源需求、调度策略要求和使用的应用程序名称,确定目标计算集群。算网大脑将目标计算集群的集群信息发送至算网门户,以使算网门户将作业信息发送至目标计算集群对应的调度器,并由调度器将作业信息转发至目标计算集群。
[0007]本申请提供的作业自动化调度方法中,算网大脑在接收到算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用名称后,根据算力资源需求、调度策略要求和使用的应用名称确定目标计算集群,进而再将计算集群的集群信息发送至算网门户,以使算网门户将作业信息发送至目标计算集群对应的调度器以转发至目标计算集群,可以避免出现待执行作业受理后被直接提交到某个计算资源繁忙的计算集群排队等待,而其他计算集群有空闲计算资源却没有作业执行的情况,可以实现计算集群之间更均衡的计算资
源利用和更少的作业排队时间。
[0008]一种可能的实现方式中,算网大脑根据算力资源需求、调度策略要求和使用的应用程序名称,确定目标计算集群,包括:算网大脑根据算力资源需求、使用的应用程序名称确定至少一个计算集群。若至少一个计算集群的数量为零个,算网大脑向算网门户发送等待指令。等待指令用于指示算网门户将作业信息存放至第一级队列。若至少一个计算集群的数量为一个,算网大脑确定计算集群为目标集群。若至少一个计算集群的数量为大于等于两个,算网大脑根据调度策略要求,确定目标计算集群。
[0009]一种可能的实现方式,调度策略包括:计算资源空闲或计算资源利用率最低或排队作业最少。算网大脑根据调度策略要求,确定目标计算集群,包括:算网大脑将调度策略要求与计算集群的集群信息进行匹配,确定目标计算集群。集群信息为算网大脑从调度器获取并存储。
[0010]第二方面,本申请提供了一种作业自动化调度方法,应用于算网门户。算网门户部署于作业自动化调度系统。自动化调度方法,包括:算网门户获取第一级作业队列中优先级最高的待执行作业的作业信息。作业信息包括:算力资源需求、调度策略要求、使用的应用程序名称。算网门户将算力资源需求、调度策略要求和使用的应用程序名称发送至算网大脑,以使算网大脑根据算力资源需求、调度策略要求和使用的应用程序名称确定目标计算集群。算网门户接收算网大脑发送的目标计算集群的集群信息。算网门户将作业信息发送至目标计算集群对应的调度器,以使目标调度器将作业信息转发至目标计算集群。
[0011]本申请提供的作业自动化调度方法中,算网门户获取第一级作业队列中优先级较高的待执行作业的作业信息,进而将作业信息中的算力资源需求、调度策略要求和使用的应用程序名称发送至算网大脑,进而接收算网大脑发送的目标计算集群的集群信息,进而将待执行作业的作业信息发送至目标计算集群,用户无需手工选择计算集群和队列,只须把作业任务和调度策略提交给算网门户即可,实现底层计算集群和队列资源对用户的屏蔽和无感,同时算网门户可以使算网大脑根据计算集群队列的资源使用情况确定待执行作业的目标计算集群队列,进而实现在多个计算集群算力并网的场景下派发作业和不同计算集群之间的负载均衡,降低作业在计算集群上的排队等待时间。
[0012]一种可能的实现方式,算网门户将作业信息发送至目标计算集群对应的调度器,以使目标调度器将作业信息转发至目标计算集群,包括:算网门户将作业信息发送至目标计算集群的调度器。调度器将作业信息提交至目标计算集群的第二作业队列。目标计算集群处理第二作业队列中优先级最高的待执行作业。
[0013]一种可能的实现方式中,本申请提供的作业自动化调度方法还包括:算网门户接收待执行作业的作业信息。算网门户将待执行作业提交至第一级作业队列。
[0014]第三方面,本申请提供了一种作业自动化调度装置,应用于算网大脑,算网大脑部署于作业自动化调度系统。作业自动化调度系统,还包括:算网门户、至少一个调度器、至少一个计算集群。算网大脑与算网门户通信连接。算网大脑与至少一个调度器通信连接。算网门户与至少一个调度器通信连接。至少一个调度器与至少一个计算集群一一对应。调度器与计算集群通信连接。作业自动化调度装置,包括:接收模块,用于接收算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用程序名称。算力资源需求、调度策略要求和使用的应用程序名称为算网门户从第一作业队列中优先级最高的待执行作业的作
业信息中获取的。确定模块,用于根据算力资源需求、调度策略要求和使用的应用程序名称,确定目标计算集群。发送模块,用于将目标计算集群的集群信息发送至算网门户,以使算网门户将作业信息发送至目标计算集群对应的调度器,并由调度器将作业信息转发至目标计算集群。
[0015]一种可能的实现方式中,本申请提供的作业自动化调度装置中,确定模块,具体用于根据算力资源需求、使用的应用程序名称确定至少一个计算集群。若至少一个计算集群的数量为零个,向算网门户发送等待指令。等待指令用于指示算网门户将作业信息存放至第一级队列。若至少一个计算集群的数量为一个,确定计算集群为目标集群。若至少一个计算集群的数量为大于等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种作业自动化调度方法,应用于算网大脑,所述算网大脑部署于作业自动化调度系统;所述作业自动化调度系统,还包括:算网门户、至少一个调度器、至少一个计算集群;所述算网大脑与所述算网门户通信连接;所述算网大脑与所述至少一个调度器通信连接;所述算网门户与所述至少一个调度器通信连接;所述至少一个调度器与所述至少一个计算集群一一对应;所述调度器与所述计算集群通信连接;其特征在于,所述作业自动化调度方法,包括:所述算网大脑接收所述算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用程序名称;所述算力资源需求、所述调度策略要求和所述使用的应用程序名称为所述算网门户从第一作业队列中优先级最高的所述待执行作业的作业信息中获取的;所述算网大脑根据所述算力资源需求、所述调度策略要求和所述使用的应用程序名称,确定目标计算集群;所述算网大脑将所述目标计算集群的集群信息发送至所述算网门户,以使所述算网门户将所述作业信息发送至所述目标计算集群对应的调度器,并由所述调度器将所述作业信息转发至所述目标计算集群。2.根据权利要求1所述的方法,其特征在于,所述算网大脑根据所述算力资源需求、所述调度策略要求和所述使用的应用程序名称,确定目标计算集群,包括:所述算网大脑根据所述算力资源需求、所述使用的应用程序名称确定至少一个计算集群;若所述至少一个计算集群的数量为零个,所述算网大脑向所述算网门户发送等待指令;所述等待指令用于指示所述算网门户将所述作业信息存放至所述第一级队列;若所述至少一个计算集群的数量为一个,所述算网大脑确定所述计算集群为所述目标集群;若所述至少一个计算集群的数量为大于等于两个,所述算网大脑根据所述调度策略要求,确定所述目标计算集群。3.根据权利要求2所述的方法,其特征在于,所述调度策略包括:计算资源空闲或计算资源利用率最低或排队作业最少;所述算网大脑根据所述调度策略要求,确定所述目标计算集群,包括:所述算网大脑将所述调度策略要求与计算集群的集群信息进行匹配,确定所述目标计算集群;所述集群信息为所述算网大脑从所述调度器获取并存储。4.一种作业自动化调度方法,应用于算网门户;所述算网门户部署于作业自动化调度系统;其特征在于,所述自动化调度方法,包括:所述算网门户获取第一级作业队列中优先级最高的待执行作业的作业信息;所述作业信息包括:算力资源需求、调度策略要求、使用的应用程序名称;所述算网门户将所述算力资源需求、所述调度策略要求和所述使用的应用程序名称发送至所述算网大脑,以使所述算网大脑根据所述算力资源需求、所述调度策略要求和所述使用的应用程序名称确定目标计算集群;所述算网门户接收所述算网大脑发送的所述目标计算集群的集群信息;所述算网门户将所述作业信息发送至所述目标计算集群对应的调度器,以使所述目标调度器将所述作业信息转发至所述目标计算集群。
5.根据权利要求4所述的方法,其特征在于,所述算网门户将所述作业信息发送至所述目标计算集群对应的调度器,以使所述目标调度器将所述作业信息转发至所述目标计算集群,包括:所述算网门户将所述作业信息发送至所述目标计算集群的调度器;所述调度器将所述作业信息提交至所述目标计算集群的第二作业队列;所述目标计算集群处理所述第二作业队列中优先级最高的待执行作业。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:所述算网门户接收待执行作业的作业信息;所述算网门户将所述待执行作业提交至所述第一级作业队列。7.一种作业自动化调度装置,应用于算网大脑,所述算网大脑部署于作业自动化调度系统;所述作业自动化调度系统,还包括:算网门户、至少一个调度器、至少一个计算集群;所述算网大脑与所述算网门户通信连接;所述算网大脑与所述至少一个调度器通信连接;所述算网门户与所述至少一个调度器通信连接;所述至少一个调度器与所述至少一个计算集群一一对应;所述调度器与所述计算集群通信连接;其特征在于,所述作业自动化调度装置,包括:接收模块,用于接收所述算网门户发送的待执行作业的算力资源需求、调度策略要求和使用的应用程序名称;所述...

【专利技术属性】
技术研发人员:邓玲杨振东杨志芬
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1