基于tensorflow的多任务弹性调度方法及系统技术方案

技术编号：27621131 阅读：29 留言：0更新日期：2021-03-10 11:02

本发明专利技术公开了一种基于tensorflow的多任务弹性调度方法及系统，其中方法包括以下步骤：利用任务管理系统对进入集群中的任务进行预处理，允许集群中存在多个任务同时进行；从任务管理系统的配置文件中获取集群中所有GPU资源数量，利用可用GPU数量为训练任务划分数据集，将每部分数据集划分到指定GPU；在每个GPU上为任务弹性分配显存资源，弹性扩展空闲GPU以提升训练速度；在每部分数据集上完成梯度下降，获得每部分的当前梯度；利用群集间的通信将梯度进行累加得到当前的总梯度；将总梯度广播至每个GPU，再进行下一次梯度下降。本发明专利技术能够弹性的调度多任务进入到集群中，利用集群已有资源高效的完成分布式计算。群已有资源高效的完成分布式计算。群已有资源高效的完成分布式计算。

全部详细技术资料下载

【技术实现步骤摘要】
基于tensorflow的多任务弹性调度方法及系统

[0001]本专利技术属于计算机
，具体地涉及一种基于tensorflow的多任务弹性调度方法及系统。

技术介绍

[0002]深度学习作为机器学习领域的一个重要分支，在近年来得到了工业界及学术界的高度关注,并且取得了令人瞩目的发展，在机器视觉、语音识别等领域得到了广泛应用。但是，海量的训练数据、超大规模的模型给深度学习带来了日益严峻的挑战，分布式深度学习应运而生，逐渐成为应对这一挑战的有效手段。
[0003]google公司开发了MapReduce系统，在处理大规模数据的分布式训练上取得了一定的成果，该框架实现了高效的处理大规模数据的能力，但是其在深度学习训练方面能力不足。由于此系统并没有开源，因此针对MapReduce有了许多开源实现，其中最成功的是Apache Hadpoo，但是该系统远不及MapReduce的性能。Berkeley开发了Apache Spark，这种框架拥有着良好的容错能力，不仅在数据处理方面，在深度学习训练上也有不错的性能，但是它采用的同步训练方式，有着较高的通信损失。近几年，uber公司研究多种深度学习训练集群(MapReduce、Apache Spark、ring-Allreduce等)，提出一种深度学习系统Horovod，它在降低通信损失，简化框架搭建上取得了极大地进步，在多GPU多节点上高效率的完成了训练任务。在另一篇论文中以Horovod为参照，在worker节点和训练机器之间添加一层结构(EDL)，实现多租户弹性控制

【技术保护点】

【技术特征摘要】
1.一种基于tensorflow的多任务弹性调度方法，其特征在于，包括以下步骤：S1：利用任务管理系统对进入集群中的任务进行预处理，允许集群中存在多个任务同时进行；S2：从任务管理系统的配置文件中获取集群中所有GPU资源数量，利用可用GPU数量为训练任务划分数据集，将每部分数据集划分到指定GPU；S3：在每个GPU上为任务弹性分配显存资源，弹性扩展空闲GPU以提升训练速度；S4：在每部分数据集上完成梯度下降，获得每部分的当前梯度；S5：利用群集间的通信将梯度进行累加得到当前的总梯度；S6：将总梯度广播至每个GPU，再进行下一次梯度下降。2.根据权利要求1所述的基于tensorflow的多任务弹性调度方法，其特征在于，步骤S1中，对加入到系统中的所有任务，任务管理程序依据关键字为每个任务生成一个特定的进程leader。3.根据权利要求1所述的基于tensorflow的多任务弹性调度方法，其特征在于，步骤S2中，根据加入到任务中总GPU数量划分数据集，每份数据集都不相同但数量一致并都能保证完成当前的梯度下降。4.根据权利要求1所述的基于tensorflow的多任务弹性调度方法，其特征在于，步骤S3中，获取分配的训练机器数量和GPU数量，集群中的训练机器称为worker，以size参数标记所有GPU数量，以参数local_rank标记每个worker上的GPU，根据size=local_rank*worker，循环修改所有GPU显存占比。5.根据权利要求3所述的基于tensorflow的多任务弹性调度方法，其特征在于，当多任务加入到集群中之后，计划整体的资源分配，对于先头作业，集群属于空载，任务管理系统相应提升显存用量，当集群逐渐满载，任务管理系统则自适应降低显存分配，直到满载时无法为作业申请显存。6.根据权利要求3所述的基于tensorflow的多任务弹性调度方法，其特征在于，在训练作业初始时，程序会进入train入口正常进行训练，新的GPU...

【专利技术属性】
技术研发人员：李迅，周覃，张彦铎，尹健南，王重九，崔恒，
申请(专利权)人：武汉工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人