面向GPU集群的深度学习训练任务调度系统技术方案

技术编号:37132918 阅读:34 留言:0更新日期:2023-04-06 21:31
一种面向GPU集群的深度学习训练任务调度系统,包括:离线性能刻画模块和在线任务调度部署模块,离线性能刻画模块分别预测不同训练任务的相似度以确定新提交任务的待采集硬件指标集以及两个训练任务混合部署后产生的性能下降程度,即性能干扰度,并离线采集训练任务在独占GPU模式下不同批大小的计算时间以拟合得到其批大小

【技术实现步骤摘要】
面向GPU集群的深度学习训练任务调度系统


[0001]本专利技术涉及的是一种神经网络应用领域的技术,具体是一种面向GPU集群的深度学习训练任务调度系统。

技术介绍

[0002]现有许多数据中心仍采用通用的集群调度器例如Yarn,Borg等,这些调度系统针对传统大数据应用例如MapReduce而设计。在这些调度系统中,一个DNN训练任务被简单的视作另一类大数据应用,调度系统根据某项调度算法选择任务,对其分配需要的一组GPU并在这组GPU上独占式运行直到结束。

技术实现思路

[0003]本专利技术针对现有的调度系统无法感知待训练任务的模型和工作负载、不支持对GPU进行共享、无法充分利用GPU的计算能力以及容易出现负载不均衡、某个子任务拖累全局任务的问题,提出一种面向GPU集群的深度学习训练任务调度系统,彻底解决GPU集群中,对于部分训练任务无法单独充分利用GPU资源和需要遵守组调度原则的条件下,最大化系统整体吞吐并提高集群资源利用率的问题。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向GPU集群的深度学习训练任务调度系统,其特征在于,包括:离线性能刻画模块和在线任务调度部署模块,其中:离线性能刻画模块分别预测不同训练任务的相似度以确定新提交任务的待采集硬件指标集以及两个训练任务混合部署后产生的性能下降程度,即性能干扰度,并离线采集训练任务在独占GPU模式下不同批大小的计算时间以拟合得到其批大小

计算时间关系;在线任务调度部署模块从任务队列中取出待调度任务并根据批大小

计算时间关系以及性能干扰度生成待调度任务的GPU亲和性和批大小分布策略,根据用户提交的训练任务及用户指定的GPU数量分为其分配合适的GPU,即混合部署后性能干扰最小的GPU以最小化平均作业完成时间并提高集群资源利用率;所述的离线采集是指:将待训练任务运行在专用预留GPU上,在数据采集过程中修改该训练任务单次迭代计算所处理的样本数,即批大小,并采集<批大小,计算时间>格式的数据样本并计算该训练任务的预计运行时间;所述的性能刻画是指:根据预计运行时间将待训练任务分类为长作业和短作业,当为长作业时,收集长作业的全部待采集硬件指标数据并将其加入任务调度队列;当为短作业时,收集短作业的结构特征信息用于预测该训练任务与运行中任务的相似度,使用最相似的运行中训练任务对应的非核心硬件指标数据替代新训练任务的对应硬件指标数据后,将其加入任务调度队列;所述的性能干扰度其中:T为训练任务独占GPU时的作业完成时间,T

为共享GPU模式下的作业完成时间。2.根据权利要求1所述的面向GPU集群的深度学习训练任务调度系统,其特征是,所述的批大小分布策略是指:通过动态改变训练任务各个进程的批大小保持负载相对均衡状态以消除滞后者影响,即离线性能刻画模块首先对训练任务的<批大小,训练时间>进行采样,获得训练任务在独占GPU下的性能曲线,即批大小

计算时间关系,根据该独占式性能曲线和性能干扰度预测模型推导出训练任务在任意GPU上运行时的批大小

计算时间关系,从而对训练任务的全局批大小进行重新分配以确保各个训练进程在新的批大小分布下计算时间基本相同。3.根据权利要求1所述的面向GPU集群的深度学习训练任务调度系统,其特征是,所述的离线性能刻画模块将用户提交的训练任务部署在单个预留的专用GPU,收集该训练任务的模型结构特征信息,利用任务相似度预测模型判断改训练任务与系统数据库中现有任务相似度以确定待采集硬件指标集,随后通过少数几次迭代计算收集该任务运行时的硬件指标数据;再根据新训练任务的运行时的硬件指标数据和集群中各GPU上训练中任务相应的硬件指标数据一起输入性能干扰度预测模型,估计得到两个训练任务共享GPU时各自导致的性能下降程度,为在线任务调度部署模块对新训练任务的GPU分配决策提供指导。4.根据权利要求1所述的面向GPU集群的深度学习训练任务调度系统,其特征是,所述的在线任务调度部署模块包括:基于GPU亲和性的任务调度器、在线任务批大小分配单元以及混部干扰传导效应修正单元,其中:基于GPU亲和性的任务调度器根据非线性整数规划问题,进行贪心算法处理,得到待处理任务的目标部署GPU,在线任务批大小分配单元对待调度任务的批大小进行重新分配,目标为最小化所有训练进程的最大迭代计算时间
混部干扰传导效应修正单元单元根据已知部署决策,对所有待处理任务的目标部署GPU进行遍历,对因部署新的训练任务导致的出现严重负载不均衡现象的运行中任务进行批大小重新分配,得到全局的均衡负载状态。5.根据权利要求3所述的面向GPU集群的深度学习训练任务调度系统,其特征是,所述的离线性能刻画模块包括:任务相似度预测单元、硬件信息收集单元、批大小计算时间刻画单元以及性能干扰度预测单元,其中:任务相似度预测单元根据用户提交的训练任务计算图信息,进行计算图的遍历,得到该训练任务的结构特征信息,将其与各个已完成任务的对应结构特征信息共同输入到任务相似度预测模型,得到待处理任务与其他任务的相似度以确定硬件采集指标集;硬件信息收集单元根据任务相似度预测单元确定的硬件采集指标集在专用GPU上部署待处理任务,并利用NSIGHT工具收集对应硬件指标;批大小计算时间刻画单元根据待处理任务在专用GPU上运行时采样的不同批大小对应计算时间,进行数据拟合,得到该任务的批大小

计算时间关系;性能干扰度预测单元将待处理训练任务的硬件指标数据和GPU上运行中任务的硬件指标数据共同输入到性能干扰度预测模型中,...

【专利技术属性】
技术研发人员:陈全魏豪过敏意陈晨赵涵崔炜皞
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1