【技术实现步骤摘要】
资源调度方法和装置、存储介质及电子设备
本专利技术涉及计算机
,具体而言,涉及一种资源调度方法和装置、存储介质及电子设备。
技术介绍
随着人工智能技术的发展,深度学习越来越重要。深度学习的实现,需要多种技术进行支撑,比如服务器、GPU(GraphicsProcessingUnit,图形处理单元)、集群、集群管理调度软件等。Kubernetes具有完备的集群管理能力、多层次安全防护和准入机制、多租户应用支撑能力、强大的故障发现和自我修复能力以及多粒度的资源配额管理能力。kubernetes从1.6版本之后增加了对GPU资源的调度,因此被广泛地应用在人工智能领域作为深度学习的调度和监控支撑平台。现有技术方案中通过Kubernetes系统对于GPU的调度存在如下问题:使用者需要通过开关控制是否开启GPU资源共享,用法上较不灵活。使用者需要为服务器的每块GPU设备配置共享GPU资源的容器任务数量的上限值,配置较为繁琐,尤其在Kubernetes集群内接入的GPU设备较多时。仅支持通过配置单块GPU设备允许的共享 ...
【技术保护点】
1.一种资源调度方法,其特征在于,包括:/n获取服务器的GPU的标识信息,其中,所述标识信息用于标识所述GPU的调度方式;/n获取所述标识信息对应的资源信息;/n根据所述资源信息确定所述GPU的调度方式。/n
【技术特征摘要】
1.一种资源调度方法,其特征在于,包括:
获取服务器的GPU的标识信息,其中,所述标识信息用于标识所述GPU的调度方式;
获取所述标识信息对应的资源信息;
根据所述资源信息确定所述GPU的调度方式。
2.根据权利要求1所述的方法,其特征在于,所述获取服务器的GPU的标识信息之前,所述方法包括:
根据所述GPU资源调度方式标记所述GPU的目标标识信息,其中,所述调度方式包括共享模式和是独享模式,其中,所述目标标识信息包括所述标识信息。
3.根据权利要求2所述的方法,其特征在于,所述获取所述标识信息对应的资源信息,包括:
在所述服务器的GPU资源调度方式为共享模式的情况下,获取所述服务器GPU设备显存信息,所述资源信息包括所述服务器GPU设备显存信息;
在所述服务器的GPU资源调度方式为独享模式的情况下,获取所述GPU上报的服务器GPU设备数信息,所述资源信息包括所述服务器GPU设备数信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述资源信息确定所述GPU的调度方式,包括:
在所述服务器的GPU资源调度方式为共享模式的情况下,确定调度的第一服务器GPU,其中,所述第一服务器GPU满足可用总显存满足任务要求;
在所述服务器的GPU资源调度方式为独享模式的情况下,确定调度的第二服务器GPU,其中,所述第二服务器GPU满足可用设备数存满足任务要求。
5.根据权利要求2所述的方法,其特征在于,包括:
在所述服务器的GPU资源调度方式为共享模式的情况下,确定调度的第三服务器GPU,其中,所述第三服务器GPU满足空闲资源满足任务条件、且所剩资源最少的GPU设备;
在所述服务器的GPU资源调度方式为独享模式的情况下,确定调度的第四服务器GPU,其中,所述第四服务器GPU满足空闲GPU设备满足任务条件、且所剩可用GPU设备最少的节点。
6.根据权利要求4所述的方法,其特征在于,所述确定调度的第一服务器GPU之后,所述方法包括:
将多个GPU容器任务分配到同一节点的同一GPU设备,且优先为调度流程完成时间戳最早的容器任务分配GPU设备。
7.根据权利要求4所述的方法,其特征在于,所述确定调度的第二服务器GPU之后,所述方法还包括:
在所述第二服务器GPU调度之前的任务未完成的情况下,当前任务进入调度排队队列,调度重试,直至确定出所述第二服务器GPU。
8.一种资源调度装置,其特征在于,包括:
第一获取单元,用于获取服务器的GPU的标识信息,其中,所述标识信息...
【专利技术属性】
技术研发人员:李思捷,潘星,高伟,周明伟,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。