【技术实现步骤摘要】
一种面向分布式深度学习训练任务的高效资源分配系统
本专利技术属于云计算
,特别涉及大型云计算集群下分布式训练任务的预测、调度和资源分配,具体涉及一种面向分布式深度学习训练任务的高效资源分配系统。
技术介绍
近几年来,深度学习模型的参数规模和复杂度迅速增长。例如,GPT-2、TuringNLG和GPT-3等自然语言处理模型的参数数量分别从1.5亿个参数增加到了17亿和175亿个参数。此外,Facebook的模型参数复杂度在过去的两年中也增加了两倍。这些超大规模的模型数量将会导致较高的训练费用。例如使用TeslaV100云实例训练一次GPT-3的成本超过460万美元,如此高的成本严重限制了研究进展。因此,如何提高云计算集群的训练效益和资源利用率,是资源管理面临的一个重要挑战。现有的工作对训练效益的提升方法主要分为两类:动态优先级调度和动态资源分配。动态作业优先级调度为每个作业分配一个随时间变化的优先级,并按照作业当前的优先级来调度作业。该方法类似于最少获得服务数(LAS)算法的调度算法,它可以保证短作业具有较高优先 ...
【技术保护点】
1.一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,包括:/n初始资源配置模块,其用于为训练作业分配一个初始资源配置;/nLAS队列,其用于将作业按照获得服务数升序排序;/n二分类器,其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业;/n性能模型,其用于该模型可以估计作业的作业完成时间JCT;/n正效益队列和负效益队列,其用于分别放置JCT增加或减少的作业;/n多级反馈队列MLFQ,其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,基于波达技术的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列;/n资 ...
【技术特征摘要】
1.一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,包括:
初始资源配置模块,其用于为训练作业分配一个初始资源配置;
LAS队列,其用于将作业按照获得服务数升序排序;
二分类器,其用于识别LAS队列单元内的不可预测作业是否转变为可预测作业;
性能模型,其用于该模型可以估计作业的作业完成时间JCT;
正效益队列和负效益队列,其用于分别放置JCT增加或减少的作业;
多级反馈队列MLFQ,其用于针对可预测LAS队列、不可预测LAS队列、正效益队列和负效益队列,基于波达技术的队列融合策略,将这四个队列结合起来,生成一个综合考虑多个因素的多级反馈队列;
资源分配调整单元,其用于根据MLFQ队列调整队所有作业的资源分配。
2.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
以每个作业的5个指标作为输入来设计二分类器,其中5个指标包括最大完工时间、精度、损失值、吞吐量和是否重新提交,二分类器采用机器学习算法来识别可预测作业。
3.根据权利要求1所述的一种面向分布式深度学习训练任务的高效资源分配系统,其特征自于,
所述二分类器使用K邻近、逻辑回归、随机森林回归、支持向量空气机器、多层感知机MLP时的准确率结果。
4.根据权利要求3所述的一种面向分布式深度学习训练任务的...
【专利技术属性】
技术研发人员:李方舒,赵来平,曲雯毓,
申请(专利权)人:天津大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。