【技术实现步骤摘要】
一种基于速度预测的深度学习任务的调度方法
本专利技术涉及一种基于速度预测的深度学习任务的调度方法,具体是一种结合资源分配和任务放置的分布式深度学习训练任务的调度方法。
技术介绍
深度学习技术是一种模拟人类神经网络来完成一系列复杂决策或预测的技术,而随着深度学习应用场景越来越多样,神经网络模型也越来越复杂,同时训练一个复杂的模型所需要的数据集也越来越大,传统的单GPU训练已经难以满足复杂模型的训练。分布式深度学习(DDL)致力于提升复杂模型的训练效率,利用多个GPU加速训练过程使得复杂模型也能在较短时间内完成训练并开始服务。然而在一个GPU集群中,会存在多个DDL训练任务,不合理的资源分配会导致每个任务都不能以最快的速度完成训练,从而影响任务的训练效率。因此,研究如何调度DDL任务使得集群资源能有效利用具有很重要的意义。参数服务器架构在分布式深度学习中,参数服务器架构是一种负责在多个工作节点之间进行参数同步的架构,分为参数服务器节点(PS)和计算节点(Worker)两种类型的节点:PS负责存储全局模型参数,接受各个Worker推送过来的梯度,更新梯度并允许各个Worker拉取更新之后的参数;每个Worker本地会存一个分全局参数的副本,负责处理数据集并将计算的梯度推送到PS上,待PS完成参数更新之后将更新之后的参数拉取到本地并开始下一轮迭代。参数服务器架构是在2010年提出的,并在2014年由李沐将参数服务器带到大众的视野,参数服务器架构在底层实现了各个节点之间的通信,向用户提供一个透明的使用接口,用户 ...
【技术保护点】
1. 一种基于速度预测的深度学习任务的调度方法,其特征在于,包括速度模型构建阶段和任务调度阶段两部分:/n速度模型构建阶段/n(1)速度模型数据集构建:利用任务在集群中训练的状态,获取任务训练速度,为训练速度模型做准备;/n(2)速度模型的实现:建立基于深度学习的速度模型的训练器,训练器的输入数据为前一步构造的数据集,输出为任务的训练速度;/n任务调度阶段/n(1)资源分配与任务放置:调度器将资源分配和任务放置结合考虑,通过速度模型预测每个任务在不同配置下的训练速度,来为每个任务决定最佳的配置,从而达到有效利用集群资源的目的;其中不同配置即不同资源分配量和放置节点;/n(2)任务运行:调度器为每个任务计算好配置后,将任务调度到集群中运行,同时监控任务运行状态。/n
【技术特征摘要】
1.一种基于速度预测的深度学习任务的调度方法,其特征在于,包括速度模型构建阶段和任务调度阶段两部分:
速度模型构建阶段
(1)速度模型数据集构建:利用任务在集群中训练的状态,获取任务训练速度,为训练速度模型做准备;
(2)速度模型的实现:建立基于深度学习的速度模型的训练器,训练器的输入数据为前一步构造的数据集,输出为任务的训练速度;
任务调度阶段
(1)资源分配与任务放置:调度器将资源分配和任务放置结合考虑,通过速度模型预测每个任务在不同配置下的训练速度,来为每个任务决定最佳的配置,从而达到有效利用集群资源的目的;其中不同配置即不同资源分配量和放置节点;
(2)任务运行:调度器为每个任务计算好配置后,将任务调度到集群中运行,同时监控任务运行状态。
2.如权利要求1所述的基于速度预测的深度学习任务的调度方法,其特征在于,速度模型构建阶段的速度模型数据集构建的实现中:任务在集群中运行会有不同的配置,其训练速度也会不同;根据任务在集群中所有可能的运行配置,采样得到不同配置下任务的训练速度,从而构造数据集。
3.如权利要求1所述的基于速度预测的深度学习任务的调度方法,其特征在于,基于任务在集群中运行的不同配置,得到速度模型的特征,作为速度模型训练器的输入特征;该方法采用的分布式深度学习的参数同步架构是参数服务器架构,速度模型的特征包含参数服务器(PS)的个数、计算节点(Worker)的个数、任务使用的模型类型、batchsize、Worker在节点上的放置以及节点上已运行的其他任务的数目;速度模型基于深度学习,构造两层全连接网络来预测任务的训练速度。
4.如权利要求1所述的基于速度预测的深度学习任务的调度方法,其特征在于,速度模型构建阶段的速度模型的实现中:采用TensorflowKeras深度学习框架,构建一个Sequential模型,搭建两层全连接网络模型;该模型的输入为数据集中每一个样本,样本特征以一组向量的形式输入,模型的标签为任务的训练速度。
5.如权利要求4所述的基于速度预测的深度学习任务的调度方法,其特征在于,模型通过反向传播算法循环迭代,使用Adam作为优化器,使得模型在测试数据集上输出的速度预测值和真实值之间的误差水平在预期范围内,从而完成深度学习的训练过程。
6.如权利要求1所述的基于速度预测的深度学习任务的调度方法,其特征在于,任务调度阶段的资源分配与任务放置的实现中:构造任务队列,用户提交的任务都置于任务队列中等待调度;每个调度周期开始时,调度器从调度队列中取出所有任务,并为它们生成初始配置,包括为每个任务分配PS和Worker,以及将分配好的任务生成一组初始放置节点;然后调度器开始调整每个任务的配置,使用定...
【专利技术属性】
技术研发人员:曹春,马晓星,徐经纬,李青坪,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。