【技术实现步骤摘要】
训练推理一体深度学习的GPU集群调度方法
[0001]本专利技术属于分布式系统及多租户深度学习应用
,具体涉及一种训练推理一体深度学习的GPU集群调度方法。
技术介绍
[0002]近年来,深度学习技术已经广泛地在计算机视觉、自然语言处理、语音、推荐系统等领域落地应用,同时训练上述任务的模型以及模型推理逐渐成为云计算集群的主要负载。云服务厂商为了更好地管理算力资源,设计GPU集群调度系统,在多租户训练集群中实现降低模型训练时长,在推理集群中确保推理任务服务质量的目标。
[0003]分布式训练任务作为典型的长时间的离线业务,对实时响应的要求不高;弹性训练技术的引入使得在集群负载规模低时,集群调度器定期轮询集群内训练作业和资源使用情况,调整训练任务GPU数量加速训练过程,因此对训练集群的挑战在于使用有限的GPU保证多租户训练的高效和公平。
[0004]文献[Qiao,Aurick,et al."Pollux:Co
‑
adaptive cluster scheduling for goodpu
【技术保护点】
【技术特征摘要】
1.一种训练推理一体深度学习的GPU集群调度方法,包括如下步骤:(1)利用训推一体的调度控制器同时管理训练集群和推理集群的GPU资源,对于分布式训练任务,采用时间间隔轮询的方式更新GPU分配,同时对推理任务实时处理;(2)对于任一分布式训练任务,确定其允许分配的GPU个数w作为分组背包的权重,并计算对应权重下的任务加速比作为分组背包问题下的价值v;(3)根据所述价值v计算确定每一分布式训练任务的分配方案;(4)对于分配更新的分布式训练任务,执行自适应弹性资源切换,更新训练超参;(5)对于推理调度,在确保服务质量等级的前提下,将推理任务放置在对训练任务当前以及未来影响最小的GPU上。2.根据权利要求1所述的GPU集群调度方法,其特征在于:所述步骤(1)中调度控制器同时管理训练集群和推理集群的GPU资源,即当分布式训练任务在训练集群GPU资源不足时,借用推理集群空闲的GPU加速分布式训练;在推理负载繁忙时,能够回收被训练任务借用的GPU。3.根据权利要求1所述的GPU集群调度方法,其特征在于:所述步骤(2)中分布式训练任务允许分配的GPU个数w∈[1,max_replicas],max_replicas为分布式训练任务在当前分配轮次下允许分配到的最大GPU个数,且max_replicas=max(M,2
×
previous_max_replicas),M为训练集群和推理集群中减去被推理任务占用或保留的GPU后剩下的可用于训练任务调度的GPU个数,previous_max_replicas为过去分配轮次中该分布式训练任务曾经分配过的GPU数量最大值。4.根据权利要求3所述的GPU集群调度方法,其特征在于:所述步骤(2)中任务加速比的计算方式为:遍历w∈[1,max_replicas],可得到对应的max_replicas组分配方案,每组分配方案要求将分配的GPU放置在尽可能少的服务器节点上,然后根据以下公式计算每组分配方案的任务加速比,若当前的分配方案与上一轮次的分配方案一致,则使v=speedup,否则v=speedup
×
penalty;其中:speedup为任务加速比...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。