【技术实现步骤摘要】
资源分配方法、装置、设备以及存储介质
[0001]本公开涉及计算机
,尤其涉及计算机技术中的资源管理、任务分配等领域,具体涉及一种资源分配方法、装置、设备以及存储介质。
技术介绍
[0002]在机器学习场景中,计算资源往往需要做统一的管理。一些集群(如Kubernetes集群,简称K8S集群)执行任务时,会为该任务对应的容器集(pod)分配资源,具体会为pod分配节点和图像处理器(Graphics Processing Unit,GPU)等资源。相关技术中,在分配时,只能为pod分配具有GPU资源的节点。然而,这种分配方法资源利用率较低。
技术实现思路
[0003]本公开提供了一种资源分配方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种资源分配方法,包括:
[0005]为目标任务创建pod;
[0006]获取该目标任务的GPU资源需求信息;
[0007]获取目标集群的可用节点信息和可用GPU资源信息;
[0008]基于可用节点信息和可用GPU资源信息,为该pod分配满足GPU资源需求信息的第一目标节点和第二目标节点,其中,第一目标节点是为该pod分配的目标GPU资源所在的节点,第二目标节点是为该pod分配的pod所在的节点。
[0009]根据本公开的第二方面,提供了一种资源分配装置,包括:
[0010]创建模块,用于为目标任务创建pod;
[0011]第一获取模块,用于获取该目标任务的GPU资源需求信息; ...
【技术保护点】
【技术特征摘要】
1.一种资源分配方法,包括:为目标任务创建容器集pod;获取所述目标任务的图形处理器GPU资源需求信息;获取目标集群的可用节点信息和可用GPU资源信息;基于所述可用节点信息和所述可用GPU资源信息,为所述pod分配满足所述GPU资源需求信息的第一目标节点和第二目标节点,其中,所述第一目标节点是为所述pod分配的目标GPU资源所在的节点,所述第二目标节点是为所述pod分配的所述pod所在的节点。2.根据权利要求1所述的方法,其中,所述GPU资源需求信息包括GPU资源使用量、GPU卡的类型以及GPU卡的拓扑结构,所述基于所述可用节点信息和所述可用GPU资源信息,为所述pod分配满足所述GPU资源需求信息的第一目标节点和第二目标节点,包括:基于所述可用节点信息和所述可用GPU资源信息,为所述pod确定满足所述GPU资源使用量的多个候选节点;从所述多个候选节点中确定出满足所述GPU卡的类型以及所述GPU卡的拓扑结构的第一节点集合;基于所述第一节点集合确定所述第一目标节点和所述第二目标节点。3.根据权利要求2所述的方法,其中,所述基于所述第一节点集合确定所述第一目标节点和所述第二目标节点,包括:确定所述第一节点集合中每个节点的每个GPU对应的GPU资源空闲量;从所述第一节点集合中筛选出GPU资源空闲量满足所述GPU资源使用量的节点,作为第二节点集合;基于所述第二节点集合确定所述第一目标节点和所述第二目标节点。4.根据权利要求3所述的方法,其中,所述基于所述第二节点集合确定所述第一目标节点和所述第二目标节点,包括:获取所述第二节点集合中每个节点所对应交换机的信息;基于所述第二节点集合中每个节点所对应交换机的信息,确定所述第二节点集合中每个节点对应的第三节点集合和第四节点集合;从所述第二节点集合、所述第三节点集合和所述第四节点集合中确定出所述第一目标节点和所述第二目标节点。5.根据权利要求4所述的方法,其中,所述基于所述第二节点集合中每个节点所在的交换机的信息,确定所述第二节点集合中每个节点对应的第三节点集合和第四节点集合,包括:对于所述第二节点集合中任一节点,将与该节点对应同一个交换机的节点,确定为该节点对应的第三节点集合;对于所述第二节点集合中任一节点,将与该节点对应不同交换机的节点,确定为该节点对应的第四节点集合。6.根据权利要求4所述的方法,其中,所述从所述第二节点集合、所述第三节点集合和所述第四节点集合中确定出所述第一目标节点和所述第二目标节点,包括:获取所述第二节点集合、所述第三节点集合和所述第四节点集合分别对应的负载情况;
根据所述第二节点集合、所述第三节点集合和所述第四节点集合分别对应的负载情况,确定所述第一目标节点和所述第二目标节点。7.根据权利要求6所述的方法,其中,所述根据所述第二节点集合、所述第三节点集合和所述第四节点集合分别对应的负载情况,确定所述第一目标节点和所述第二目标节点,包括:确定所述第二节点集合、所述第三节点集合和所述第四节点集合中每个节点的属性以及所述属性对应的权重值;基于每个节点的属性以及所述属性对应的权重值,确定每个节点的总权重值;根据每个节点的总权重值,确定最大的总权重值;根据所述最大的总权重值,确定所述第一目标节点和所述第二目标节点。8.根据权利要求7所述的方法,其中,每个节点的属性,至少包括以下属性之一:每个节点所属的集合;每个节点对应的交换机的网络吞吐量;每个节点对应的交换机的使用量;每个节点对应的GPU的显存空闲量;每个节点对应的GPU的算力空闲量;每个节点对应的磁盘空闲量;每个节点对应的中央处理器CPU空闲量;每个节点对应的GPU优先级。9.根据权利要求1至8任一项所述的方法,还包括:将所述目标GPU资源在所述第一目标节点中的服务地址发送至所述第二目标节点,以由所述第二目标节点基于所述服务地址调用所述目标GPU资源执行所述目标任务。10.一种资源分配装置,包括:创建模块,用于为目标任务创建容器集pod;第一获取模块,用于获取所述目标任务的图形处理器GPU资源需求信息;第二获取...
【专利技术属性】
技术研发人员:范业大,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。