【技术实现步骤摘要】
一种服务器集群的资源整理方法、系统、设备及介质
[0001]本专利技术涉及计算资源管理
,尤其涉及一种服务器集群的资源整理方法、系统、设备及介质。
技术介绍
[0002]随着人工智能技术的不断发展以及产业AI(Artificial Intelligence,人工智能)化的不断推进,越来越多的行业用户开始构建自身的AI资源管理平台来支撑企业的AI业务开发与运行,通过Docker容器绑定的方式进行资源分配和计算环境创建。
[0003]面对多用户的服务器集群资源调度分配,在长时间运行后经常会出现GPU碎片资源。服务器集群执行待处理任务时,待处理任务所需GPU个数小于每个GPU服务器安装的GPU数量,就会出现GPU碎片。目前AI计算平台为解决GPU碎片化问题,有两类方法:一类是要求用户的资源申请配置必须有统一的规格,统一规格的资源申请配置限制了用户的使用,也会存在申请资源闲置或者该规格没有资源的等待问题;另一类是借助分布式框架,例如将单机两卡的计算任务改造成双机单卡的分布式任务,分布式框架的方式需要对代码进行侵入式改造 ...
【技术保护点】
【技术特征摘要】
1.一种服务器集群的资源整理方法,其特征在于,包括:获取服务器集群的节点列表以及所述节点列表中每个节点对应的任务列表,其中,所述节点包含GPU,所述任务列表包含所述节点中每个GPU的创建信息以及计算环境;对所述节点列表中的节点按剩余GPU数量以及剩余GPU对应的任务列表中的计算环境进行筛选,并生成筛选列表;从所述筛选列表中选择两个节点,将其中一个节点的所述剩余GPU对应的创建信息从所述节点的任务列表中删除,并在另一个节点的任务列表中生成所述剩余GPU的创建信息;将所述两个节点从所述筛选列表中删除,并返回从所述筛选列表中选择两个节点步骤,直到筛选列表中无节点或仅剩余一个节点。2.根据权利要求1所述的方法,其特征在于,对所述节点列表中的节点按剩余GPU数量以及剩余GPU对应的任务列表中的计算环境进行筛选,包括:从所述节点列表中筛选出空闲预设数量GPU的节点;基于所述空闲预设数量GPU的节点对应的任务列表中的计算环境,从所述节点列表中筛选出包含预设卡数计算环境的GPU。3.根据权利要求2所述的方法,其特征在于,从所述节点列表中筛选出空闲预设数量GPU的节点,包括:从所述节点列表中筛选出空闲1个GPU的节点。4.根据权利要求3所述的方法,其特征在于,基于所述空闲预设数量GPU的节点对应的任务列表中的计算环境,从所述节点列表中筛选出包含预设卡数计算环境的GPU,包括:基于所述空闲1个GPU的节点对应的任务列表中的计算环境,从所述节点列表中筛选出包含1卡计算环境的GPU。5.根据权利要求4所述的方法,其特征在于,对所述节点列表中的节点按剩余GPU数量以及剩余GPU对应的任务列表中的计算环境进行筛选,包括:响应于剩余1个GPU且所述GPU包含1卡计算环境的节点整理完成,从所述节点列表中筛选出空闲2个GPU的节点;基于所述空闲2个GPU的节点对应的任务列表中的计算环境,从所述节点列表中筛选出包含2卡计算环境的GPU,并生成空闲2个GPU的筛选列表。6.根据权利要求5所述...
【专利技术属性】
技术研发人员:胡叶,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。