当前位置: 首页 > 专利查询>之江实验室专利>正文

一种服务器集群资源的统一调度方法和装置制造方法及图纸

技术编号:37188519 阅读:21 留言:0更新日期:2023-04-20 22:50
本发明专利技术公开了一种服务器集群资源的统一调度方法和装置,该方法针对服务器资源调度的增量实时调度和全量碎片整理,合并简化了调度方法,实现了方法的复用;该方法包括以下步骤:获取当前时刻服务器集群状态的快照;根据快照,获取集群中的所有在运行的服务器集合,并根据优先级进行降序排列;依次遍历所排序的服务器集合,对每台服务器,通过弹射链和蒙特卡洛树搜索方法,依次判断所部署的容器是否可迁移至其它低优先级的服务器,并执行相应操作。本发明专利技术能获得完整的迁移路径和过程态,对服务器集群的资源进行整理,提高了资源的使用率,优化集群性能,降低功耗,助力实现数据中心的低碳节能、绿色环保的追求。绿色环保的追求。绿色环保的追求。

【技术实现步骤摘要】
一种服务器集群资源的统一调度方法和装置


[0001]本专利技术涉及计算机
,特别是涉及一种服务器集群资源的统一调度方法和装置。

技术介绍

[0002]资源调度是指当用户在申请容器所需的计算资源时,从集群中挑选出满足各项要求的宿主机来部署这些容器。
[0003]调度方法需要综合考虑资源(CPU、内存、磁盘等)、亲和

反亲和、迁移链长度等多种约束,以及均衡性、分配率、异构机型(GPU、FPGA)等多目标。
[0004]在云计算的环境下,调度系统帮助完成应用从部署、扩展、升级、下线的整个生命周期的管理,并负责应用的稳定、容灾和高可用。
[0005]不同的调度策略和规则,会导致最终得到的宿主机资源分配率存在差异。
[0006]随着AI业务的版本迭代、服务上下线,集群中会出现不可被分配出去的资源,造成集群中的宿主机出现资源碎片,碎片可能出现在多个维度(如显存、算力),任何一个维度的资源分配不合理,都可能导致其他资源成为碎片,造成浪费。
[0007]对于以上问题,现有技术可以通过调度后弹性伸本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种服务器集群资源的统一调度方法,其特征在于,包括以下步骤:(1)确定服务器集群中在运行的所有宿主机,获取集群状态快照;(2)根据状态快照判断服务器集群调度场景是否为增量场景,若是增量场景,则将待分配的容器视为预先放置在一个最高优先级、容量无限大的虚拟主机中,以将增量场景转化为全量场景并将所有宿主机按优先级进行降序排列;若不是增量场景,则直接将所有宿主机按优先级进行降序排列;(3)在降序排列的宿主机中选择一台宿主机作为源宿主机,应用弹射链方法和蒙特卡洛树搜索方法判断源宿主机上的容器是否可以全部迁移至其它低优先级的宿主机,若能全部迁出,则执行迁移动作清空宿主机并将该宿主机的状态标记为“空闲”;否则,将该宿主机的状态标记为“不可清空”;(4)重复所述步骤(3),直至降序排列的所有宿主机的容器是否可以全部迁移的判断完成为止。2.根据权利要求1所述的服务器集群资源的统一调度方法,其特征在于,所述步骤(1)包括以下子步骤:(1.1)获取服务器集群中的宿主机信息,宿主机信息包括宿主机的状态以及宿主机与容器的容斥信息、资源占用情况;所述宿主机的状态分为“空闲”或者“在运行”;(1.2)获取各宿主机上已部署的容器信息,所述容器信息包括与请求对象容器的容斥信息;(1.3)根据宿主机的状态为“在运行”,获取集群状态快照。3.根据权利要求1或2所述的服务器集群资源的统一调度方法,其特征在于,所述状态快照为某时刻采集到的集群运行状态,包括:在各宿主机中部署的容器信息、各项资源使用量、各项资源使用率和集群调度队列信息。4.根据权利要求1所述的服务器集群资源的统一调度方法,其特征在于,所述步骤(2)中获取宿主机的优先级的方法具体为:根据服务器的资源价值、服务器资源占用状态、服务器资源使用率、部署的容器数、是否为异构机型和预先指定的优先级标准,计算宿主机的优先级。5.根据权利要求1所述的服务器集群资源的统一调度方法,其特征在于,所述步骤(3)包括以下子步骤:(3.1)在降序排列的宿主机中选择一台宿主机作为源宿主机,选择源宿主机上的一个容器进行弹射链操作;(3.2)在当前集群状态下,对选定的容器使用蒙特卡洛树搜索找到最佳迁移方案;(3.3)判断最佳迁移方案是否可行,若迁移方案可行,则记录迁移方案,选择一个新的容器进行弹射链操作,返回所述步骤(3.2),直至源宿主机上的所有容器均已完成弹射链操作为止,并执行迁移方案对应的迁移动作,以清空宿主机并将该宿主机的状态标记为“空闲”;若迁移方案不可行,则对迁移方案的目标宿主机进行资源约束松弛;(3.4)判断松弛对应的方案是否可行,若可行,则将弹射深度减一,选择目标宿主机中的容器作为待操作容器,将待操作容器作为选定的容器返回所述步骤(3.2);若不可行,则返回空值,将当前宿主机的状态标记为“不可清空”。6.根据权利要求5所述的服务器集群资源的统一调度方法,其特征在于,...

【专利技术属性】
技术研发人员:张莹吴玉斌陈光曾令仿朱健程永利郑焕波张丽颖
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1