The invention provides a model division and task placement method for heterogeneous network perception in pipeline distributed deep learning, which mainly includes three parts, namely, deep learning model description, model division and task placement, and pipeline distributed training. According to the resource requirements of deep learning application in GPU training process, the invention first describes the corresponding indexes such as calculation time, intermediate result communication quantity, parameter synchronization quantity in the training execution process, and takes them as the input of model division and task placement. Then, according to the model description, we get the index and the heterogeneous network connection topology of GPU cluster, and design the execution model division and task placement of dynamic programming algorithm based on min \u2011 max, in order to minimize the maximum execution time of each stage after the division, so as to ensure the load balance. Finally, according to the results of partition and placement, the pipeline time-sharing injection data is used for distributed training on the basis of model parallel, which can effectively guarantee the training speed and accuracy.
【技术实现步骤摘要】
一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法
本专利技术涉及一种流水线分布式深度学习中异构网络感知的模型划分与任务放置技术,属于分布式计算
技术介绍
深度学习(deeplearning)是一类机器学习技术,是利用多层非线性信息进行有监督或无监督的特征提取和转换,以及用于模式分析和分类的技术。深度学习一般包含两个过程,训练过程和推断过程:训练过程是利用设计好的神经网络从大量训练集中(已知标签)提取特征执行预测,然后根据预测值与实际标签值之间的误差计算梯度,利用梯度下降的方法执行参数更新,重复迭代,直至收敛。推断过程是利用训练过程训练好的神经网络模型,对未知标签的数据执行相应预测或识别推断。由于在实际环境中,训练时间一个神经网络通常需要上百小时甚至几周,而推断时间通常只需要几毫秒,训练时间与推断时间相差十几个数量级,因此如何减少训练时间,即快速高效的执行深度学习的训练过程成为人们关注的重点问题。深度学习的训练过程是一个迭代收敛的过程,以深度学习图像识别为例,通常包含以下三个阶段:(1)前向传播。前向传播是从训练数据中执行输入到结果输出的过程。利用设计好的神经网络从一批带有标签的图像、视频中抽取出特征,将特征进行组合,计算出图像的分类。为了加快训练速度以及减少图片噪声影响,通常一次迭代会同时处理一批数据,称为一个mini-batch。(2)反向传播。反向传播是与前向传播执行方向相反的过程。为了使前向传播预测值与实际标签值的误差尽可能小,将预测值与实际标签值进行对比,根据对比误差( ...
【技术保护点】
1.一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法,其特征在于:该方法包括以下步骤:/n步骤一:建立深度神经网络的层次累积分布函数模型,分析深度学习应用在流水线模式下执行模型划分与任务放置算法所需相应输入条件,通过实际运行的方式测量得出神经网络按层计算时间、中间结果通信量以及同步参数量,刻画神经网络层级结构相应指标;/n步骤二:针对网络异构的GPU集群,对流水线模式下分布式深度学习训练过程进行建模,基于步骤一得到的训练过程相应指标,定义按GPU之间带宽从大到小排序,从而固定GPUID顺序的启发式规则,采用基于min-max的动态规划回溯法,执行模型划分与任务放置,目的是最小化划分之后各阶段任务执行时间之间的最大值,求解出使得流水线分布式在异构网络模式下GPU负载尽可能均衡、GPU利用率得以提升从而加速分布式训练的划分放置策略;/n步骤三:使用流水线分时注入数据执行训练,根据步骤二中算法,将模型划分成不同阶段,每个阶段包含神经网络部分连续的层,同时,每个阶段映射到k块GPU上执行数据并行,阶段间模型并行产生数据通过网络传输,阶段内部数据并行参数通过网络进行同步,采用流水线 ...
【技术特征摘要】
1.一种流水线分布式深度学习中异构网络感知的模型划分与任务放置方法,其特征在于:该方法包括以下步骤:
步骤一:建立深度神经网络的层次累积分布函数模型,分析深度学习应用在流水线模式下执行模型划分与任务放置算法所需相应输入条件,通过实际运行的方式测量得出神经网络按层计算时间、中间结果通信量以及同步参数量,刻画神经网络层级结构相应指标;
步骤二:针对网络异构的GPU集群,对流水线模式下分布式深度学习训练过程进行建模,基于步骤一得到的训练过程相应指标,定义按GPU之间带宽从大到小排序,从而固定GPUID顺序的启发式规则,采用基于min-max的动态规划回溯法,执行模型划分与任务放置,目的是最小化划分之后各阶段任务执行时间之间的最大值,求解出使得流水线分布式在异构网络模式下GPU负载尽可能均衡、GPU利用率得以提升从而加速分布式训练的划分放置策略;
步骤三:使用流水线分时注入数据执行训练,根据步骤二中算法,将模型划分成不同阶段,每个阶段包含神经网络部分连续的层,同时,每个阶段映射到k块GPU上执行数据并行,阶段间模型并行产生数据通过网络传输,阶段内部数据并行参数通过网络进行同步,采用流水线分时注入数据的方式确保在同一时刻各阶段并行执行不同批次数...
【专利技术属性】
技术研发人员:张竞慧,詹隽,金嘉晖,罗军舟,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。