【技术实现步骤摘要】
一种服务器集群资源的统一调度方法和装置
[0001]本专利技术涉及计算机
,特别是涉及一种服务器集群资源的统一调度方法和装置。
技术介绍
[0002]资源调度是指当用户在申请容器所需的计算资源时,从集群中挑选出满足各项要求的宿主机来部署这些容器。
[0003]调度方法需要综合考虑资源(CPU、内存、磁盘等)、亲和
‑
反亲和、迁移链长度等多种约束,以及均衡性、分配率、异构机型(GPU、FPGA)等多目标。
[0004]在云计算的环境下,调度系统帮助完成应用从部署、扩展、升级、下线的整个生命周期的管理,并负责应用的稳定、容灾和高可用。
[0005]不同的调度策略和规则,会导致最终得到的宿主机资源分配率存在差异。
[0006]随着AI业务的版本迭代、服务上下线,集群中会出现不可被分配出去的资源,造成集群中的宿主机出现资源碎片,碎片可能出现在多个维度(如显存、算力),任何一个维度的资源分配不合理,都可能导致其他资源成为碎片,造成浪费。
[0007]对于以上问题,现有技术 ...
【技术保护点】
【技术特征摘要】
1.一种服务器集群资源的统一调度方法,其特征在于,包括以下步骤:(1)确定服务器集群中在运行的所有宿主机,获取集群状态快照;(2)根据状态快照判断服务器集群调度场景是否为增量场景,若是增量场景,则将待分配的容器视为预先放置在一个最高优先级、容量无限大的虚拟主机中,以将增量场景转化为全量场景并将所有宿主机按优先级进行降序排列;若不是增量场景,则直接将所有宿主机按优先级进行降序排列;(3)在降序排列的宿主机中选择一台宿主机作为源宿主机,应用弹射链方法和蒙特卡洛树搜索方法判断源宿主机上的容器是否可以全部迁移至其它低优先级的宿主机,若能全部迁出,则执行迁移动作清空宿主机并将该宿主机的状态标记为“空闲”;否则,将该宿主机的状态标记为“不可清空”;(4)重复所述步骤(3),直至降序排列的所有宿主机的容器是否可以全部迁移的判断完成为止。2.根据权利要求1所述的服务器集群资源的统一调度方法,其特征在于,所述步骤(1)包括以下子步骤:(1.1)获取服务器集群中的宿主机信息,宿主机信息包括宿主机的状态以及宿主机与容器的容斥信息、资源占用情况;所述宿主机的状态分为“空闲”或者“在运行”;(1.2)获取各宿主机上已部署的容器信息,所述容器信息包括与请求对象容器的容斥信息;(1.3)根据宿主机的状态为“在运行”,获取集群状态快照。3.根据权利要求1或2所述的服务器集群资源的统一调度方法,其特征在于,所述状态快照为某时刻采集到的集群运行状态,包括:在各宿主机中部署的容器信息、各项资源使用量、各项资源使用率和集群调度队列信息。4.根据权利要求1所述的服务器集群资源的统一调度方法,其特征在于,所述步骤(2)中获取宿主机的优先级的方法具体为:根据服务器的资源价值、服务器资源占用状态、服务器资源使用率、部署的容器数、是否为异构机型和预先指定的优先级标准,计算宿主机的优先级。5.根据权利要求1所述的服务器集群资源的统一调度方法,其特征在于,所述步骤(3)包括以下子步骤:(3.1)在降序排列的宿主机中选择一台宿主机作为源宿主机,选择源宿主机上的一个容器进行弹射链操作;(3.2)在当前集群状态下,对选定的容器使用蒙特卡洛树搜索找到最佳迁移方案;(3.3)判断最佳迁移方案是否可行,若迁移方案可行,则记录迁移方案,选择一个新的容器进行弹射链操作,返回所述步骤(3.2),直至源宿主机上的所有容器均已完成弹射链操作为止,并执行迁移方案对应的迁移动作,以清空宿主机并将该宿主机的状态标记为“空闲”;若迁移方案不可行,则对迁移方案的目标宿主机进行资源约束松弛;(3.4)判断松弛对应的方案是否可行,若可行,则将弹射深度减一,选择目标宿主机中的容器作为待操作容器,将待操作容器作为选定的容器返回所述步骤(3.2);若不可行,则返回空值,将当前宿主机的状态标记为“不可清空”。6.根据权利要求5所述的服务器集群资源的统一调度方法,其特征在于,...
【专利技术属性】
技术研发人员:张莹,吴玉斌,陈光,曾令仿,朱健,程永利,郑焕波,张丽颖,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。