当前位置: 首页 > 专利查询>天津大学专利>正文

一种面向分布式深度学习训练任务的高效资源分配系统技术方案

技术编号:29488839 阅读:40 留言:0更新日期:2021-07-30 19:00
本发明专利技术公开了一种面向分布式深度学习训练任务的高效资源分配系统,包括:初始资源配置模块;LAS队列;二分类器;性能模型;多级反馈队列MLFQ,首先将分布式深度学习作业分为可预测作业和不可预测作业,并对两类作业设置不同的作业优先级和资源调整方案。针对于可预测作业,资源调整的收益往往是可以预测的,因此每次调整都可以给集群带来收益。而不可预测作业,其收益往往不可知。此外,可预测作业和不可预测作业的优先级计算方式不同,可预测作业综合考虑资源调整和剩余作业完成时间来计算优先级,而不可预测作业通过已接受服务数来计算优先级。为了统一两类作业在集群中的统一调度,我们采用波达计数法来解决该问题。

【技术实现步骤摘要】
一种面向分布式深度学习训练任务的高效资源分配系统
本专利技术属于云计算
,特别涉及大型云计算集群下分布式训练任务的预测、调度和资源分配,具体涉及一种面向分布式深度学习训练任务的高效资源分配系统。
技术介绍
近几年来,深度学习模型的参数规模和复杂度迅速增长。例如,GPT-2、TuringNLG和GPT-3等自然语言处理模型的参数数量分别从1.5亿个参数增加到了17亿和175亿个参数。此外,Facebook的模型参数复杂度在过去的两年中也增加了两倍。这些超大规模的模型数量将会导致较高的训练费用。例如使用TeslaV100云实例训练一次GPT-3的成本超过460万美元,如此高的成本严重限制了研究进展。因此,如何提高云计算集群的训练效益和资源利用率,是资源管理面临的一个重要挑战。现有的工作对训练效益的提升方法主要分为两类:动态优先级调度和动态资源分配。动态作业优先级调度为每个作业分配一个随时间变化的优先级,并按照作业当前的优先级来调度作业。该方法类似于最少获得服务数(LAS)算法的调度算法,它可以保证短作业具有较高优先级,优先被调度。但是本文档来自技高网...

【技术保护点】
1.一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,包括:/n初始资源配置模块,其用于为训练作业分配一个初始资源配置;/nLAS队列,其用于将作业按照获得服务数升序排序;/n二分类器,其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业;/n性能模型,其用于该模型可以估计作业的作业完成时间JCT;/n正效益队列和负效益队列,其用于分别放置JCT增加或减少的作业;/n多级反馈队列MLFQ,其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,基于波达技术的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列;/n资源分配调整单元,其用...

【技术特征摘要】
1.一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,包括:
初始资源配置模块,其用于为训练作业分配一个初始资源配置;
LAS队列,其用于将作业按照获得服务数升序排序;
二分类器,其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业;
性能模型,其用于该模型可以估计作业的作业完成时间JCT;
正效益队列和负效益队列,其用于分别放置JCT增加或减少的作业;
多级反馈队列MLFQ,其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,基于波达技术的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列;
资源分配调整单元,其用于根据MLFQ队列调整队所有作业的资源分配。


2.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
以每个作业的5个指标作为输入来设计二分类器,其中5个指标包括最大完工时间、精度、损失值、吞吐量和是否重新提交,二分类器采用机器学习算法来识别可预测作业。


3.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
所述二分类器使用K邻近、逻辑回归、随机森林回归、支持向量空气机器、多层感知机MLP时的准确率结果。


4.根据权利要求3所述的一种面向分布式深度学习训练任务的...

【专利技术属性】
技术研发人员:李方舒赵来平曲雯毓
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1