一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法技术

技术编号：22723323 阅读：42 留言：0更新日期：2019-12-04 05:53

本发明专利技术提供一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，主要包含三个部分，分别是深度学习模型刻画、模型划分与任务放置、流水线分布式训练。本发明专利技术首先针对深度学习应用在GPU训练过程中的资源需求，刻画出其训练执行过程中计算时间、中间结果通信数量、参数同步量等相应指标，并将其作为模型划分与任务放置的输入。然后根据模型刻画得出指标以及GPU集群的异构网络连接拓扑，设计基于min‑max的动态规划算法执行模型划分与任务放置，目的是最小化划分之后各阶段任务执行时间的最大值，以确保负载均衡。最后根据划分放置结果，在模型并行的基础上使用流水线分时注入数据进行分布式训练，实现训练速度与精度的有效保障。

A model partition and task placement method of heterogeneous network awareness in pipeline distributed deep learning

The invention provides a model division and task placement method for heterogeneous network perception in pipeline distributed deep learning, which mainly includes three parts, namely, deep learning model description, model division and task placement, and pipeline distributed training. According to the resource requirements of deep learning application in GPU training process, the invention first describes the corresponding indexes such as calculation time, intermediate result communication quantity, parameter synchronization quantity in the training execution process, and takes them as the input of model division and task placement. Then, according to the model description, we get the index and the heterogeneous network connection topology of GPU cluster, and design the execution model division and task placement of dynamic programming algorithm based on min \u2011 max, in order to minimize the maximum execution time of each stage after the division, so as to ensure the load balance. Finally, according to the results of partition and placement, the pipeline time-sharing injection data is used for distributed training on the basis of model parallel, which can effectively guarantee the training speed and accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法
本专利技术涉及一种流水线分布式深度学习中异构网络感知的模型划分与任务放置技术，属于分布式计算

技术介绍
深度学习(deeplearning)是一类机器学习技术，是利用多层非线性信息进行有监督或无监督的特征提取和转换，以及用于模式分析和分类的技术。深度学习一般包含两个过程，训练过程和推断过程：训练过程是利用设计好的神经网络从大量训练集中(已知标签)提取特征执行预测，然后根据预测值与实际标签值之间的误差计算梯度，利用梯度下降的方法执行参数更新，重复迭代，直至收敛。推断过程是利用训练过程训练好的神经网络模型，对未知标签的数据执行相应预测或识别推断。由于在实际环境中，训练时间一个神经网络通常需要上百小时甚至几周，而推断时间通常只需要几毫秒，训练时间与推断时间相差十几个数量级，因此如何减少训练时间，即快速高效的执行深度学习的训练过程成为人们关注的重点问题。深度学习的训练过程是一个迭代收敛的过程，以深度学习图像识别为例，通常包含以下三个阶段：(1)...

【技术保护点】
1.一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，其特征在于：该方法包括以下步骤：/n步骤一：建立深度神经网络的层次累积分布函数模型，分析深度学习应用在流水线模式下执行模型划分与任务放置算法所需相应输入条件，通过实际运行的方式测量得出神经网络按层计算时间、中间结果通信量以及同步参数量,刻画神经网络层级结构相应指标；/n步骤二：针对网络异构的GPU集群，对流水线模式下分布式深度学习训练过程进行建模，基于步骤一得到的训练过程相应指标，定义按GPU之间带宽从大到小排序，从而固定GPUID顺序的启发式规则，采用基于min-max的动态规划回溯法，执行模型划分与任务放置，目的是最小化划...

【技术特征摘要】
1.一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法，其特征在于：该方法包括以下步骤：
步骤一：建立深度神经网络的层次累积分布函数模型，分析深度学习应用在流水线模式下执行模型划分与任务放置算法所需相应输入条件，通过实际运行的方式测量得出神经网络按层计算时间、中间结果通信量以及同步参数量,刻画神经网络层级结构相应指标；
步骤二：针对网络异构的GPU集群，对流水线模式下分布式深度学习训练过程进行建模，基于步骤一得到的训练过程相应指标，定义按GPU之间带宽从大到小排序，从而固定GPUID顺序的启发式规则，采用基于min-max的动态规划回溯法，执行模型划分与任务放置，目的是最小化划分之后各阶段任务执行时间之间的最大值，求解出使得流水线分布式在异构网络模式下GPU负载尽可能均衡、GPU利用率得以提升从而加速分布式训练的划分放置策略；
步骤三：使用流水线分时注入数据执行训练，根据步骤二中算法，将模型划分成不同阶段，每个阶段包含神经网络部分连续的层，同时，每个阶段映射到k块GPU上执行数据并行，阶段间模型并行产生数据通过网络传输，阶段内部数据并行参数通过网络进行同步，采用流水线分时注入数据的方式确保在同一时刻各阶段并行执行不同批次数...

【专利技术属性】
技术研发人员：张竞慧，詹隽，金嘉晖，罗军舟，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人