面向流水线并行训练的调度策略确定方法及系统技术方案

技术编号:38225006 阅读:16 留言:0更新日期:2023-07-25 17:56
本申请提供了一种面向流向线并行训练的调度策略确定方法及系统,属于云计算技术领域。所述方法包括:根据训练样本集和每个计算节点的属性信息,确定多种候选调度策略,候选调度策略包括一种将训练样本集均匀拆分成多个训练样本子集的样本拆分方案及对应的最大K值,最大K值用于指示每个计算节点在相应样本拆分方案下进行一次前向计算或后向计算时子集数量的最大值;基于每种候选调度策略中的样本拆分方案和各个计算节点之间的关联关系,生成每种候选调度策略对应的任务图像;根据当前网络状态和每种候选调度策略对应的任务图像与最大K值,确定出训练时长最短的目标调度策略。本申请能够在网络资源抢占的情况下,提高模型的训练效率。模型的训练效率。模型的训练效率。

【技术实现步骤摘要】
面向流水线并行训练的调度策略确定方法及系统


[0001]本申请涉及云计算
,特别涉及一种面向流向线并行训练的调度策略确定方法及系统。

技术介绍

[0002]随着深度学习的不断发展,深度学习模型的规模越来越大。对于大模型训练来说,分布式训练方式尤为关键。流水线并行训练作为一种重要的分布式训练方式,通过将深度学习模型按层切分成前后衔接的多个训练阶段(简称stage),进而将多个stage部署到多个计算节点上,通过采用合理的调度策略,控制多个计算节点的计算顺序,从而完成深度学习模型的训练任务。
[0003]目前,采用流水线并行训练方式进行训练时,通常会将用于每轮训练的训练样本集合均匀切分成多个训练样本子集,每个计算节点按照1F1B的调度策略进行训练。其中,F(即forward)是指深度学习训练的前向计算阶段,B(即backward)是指深度学习训练的后向计算阶段。1F1B的调度策略是指每个计算节点一次进行前向计算或后向计算的训练样本子集的数量为1个。采用1F1B的调度策略,网络资源占用较多,在网络资源抢占场景下,模型训练效率较低。
[0004]因此,亟需提供一种新的面向流水线并行训练的调度策略确定方法,从而能够在网络资源抢占场景下,也能获得较高的模型训练效率。

技术实现思路

[0005]本申请实施例提供了一种面向流水线并行训练的调度策略确定方法及系统,能够在网络资源抢占场景下,获取较高的模型训练效率。所述技术方案如下:
[0006]第一方面,提供了一种面向流水线并行训练的调度策略确定方法,所述方法应用于网络资源抢占场景,所述方法包括:
[0007]根据任一批次的训练样本集和每个计算节点的属性信息,确定多种候选调度策略,所述计算节点上部署有深度学习模型所切分的训练阶段,所述候选调度策略用于指示每个计算节点基于所述训练样本集对所述深度学习模型进行训练的训练方式,所述候选调度策略包括一种将所述训练样本集均匀拆分成多个训练样本子集的样本拆分方案及对应的最大K值,所述最大K值用于指示每个计算节点在相应样本拆分方案下进行一次前向计算或后向计算时子集数量的最大值,所述最大K值大于等于2;
[0008]基于每种候选调度策略中的样本拆分方案和各个计算节点之间的关联关系,生成每种候选调度策略对应的任务图像;
[0009]根据当前网络状态和每种候选调度策略对应的任务图像与最大K值,从多种候选调度策略中,确定出训练时长最短的目标调度策略,所述目标调度策略用于对每个计算节点的计算过程进行控制。
[0010]第二方面,提供了一种面向流水线并行训练的调度策略确定装置,所述装置应用
于网络资源抢占场景,所述装置包括:
[0011]第一确定模块,用于根据任一批次的训练样本集和每个计算节点的属性信息,确定多种候选调度策略,所述计算节点上部署有深度学习模型所切分的训练阶段,所述候选调度策略用于指示每个计算节点基于所述训练样本集对所述深度学习模型进行训练的训练方式,所述候选调度策略包括一种将所述训练样本集均匀拆分成多个训练样本子集的样本拆分方案及对应的最大K值,所述最大K值用于指示每个计算节点在相应样本拆分方案下进行一次前向计算或后向计算时子集数量的最大值,所述最大K值大于等于2;
[0012]生成模块,用于基于每种候选调度策略中的样本拆分方案和各个计算节点之间的关联关系,生成每种候选调度策略对应的任务图像;
[0013]第二确定模块,用于根据当前网络状态和每种候选调度策略对应的任务图像与最大K值,从多种候选调度策略中,确定出训练时长最短的目标调度策略,所述目标调度策略用于对每个计算节点的计算过程进行控制。
[0014]第三方面,提供了一种流水线并行训练系统,所述系统包括面向流水线并行训练的调度策略确定装置及多个计算节点;
[0015]所述调度策略确定装置,用于执行第一方面所述的面向流水线并行训练的调度策略确定方法;
[0016]每个计算节点,用于接收所述调度策略确定装置发送的目标调度策略,并按照所述目标调度策略进行模型训练。
[0017]第四方面,提供了一种计算设备,包括处理器以及存储器;所述存储器存储至少一条程序代码;所述至少一条程序代码用于被所述处理器调用并执行,以实现如第一方面所述的面向流水线并行训练的调度策略确定方法。
[0018]第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序被处理器执行时能够实现如第一方面所述的面向流水线并行训练的调度策略确定方法。
[0019]第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时能够实现如第一方面所述的面向流水线并行训练的调度策略确定方法。
[0020]本申请实施例提供的技术方案带来的有益效果是:
[0021]在采用流水线并行训练方式对深度学习模型进行训练时,并非采取1F1B的固定调度策略,而是在每轮训练过程中,根据用于该轮训练的训练样本集的样本数量,对该训练样本集进行拆分,得到多种样本拆分方案,每种样本拆分方案所拆分的训练样本子集的子集数量及训练样本子集内的样本数量均不同。在每个计算节点的最大存储空间内,对于同一样本拆分方案来说,所拆分的训练样本子集内的样本数量是固定的,每个计算节点并行计算的训练样本子集的数量越多,每个计算节点的计算效率越高;对于不同种样本拆分方案来说,所拆分的训练样本子集内的样本数量越多,计算节点能够并行计算的训练样本子集的子集数量越少,而需要并行计算的训练样本子集的子集数量越多,计算节点之间的通信次数越少,对网络状态依赖程度越低。本申请以每个计算节点的最大存储空间为限制条件,为每种样本拆分方案搜索到对应的最大K值,得到多种候选调度策略,进而获取在当前网络状态下每种候选调度策略的训练时长,该训练时长在综合考虑了网络状态和各个计算节点
的计算效率的前提下,降低了网络状态对训练效率产生的影响,从而在选取训练时长最短的目标调度策略对各个计算节点的训练过程进行控制时,可在网络资源抢占的场景下,也能够获得较高的模型训练效率,使得整个模型训练过程均能保持较高的训练水平。
附图说明
[0022]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本申请实施例提供的一种面向流水线并行训练的调度策略确定装置的结构示意图;
[0024]图2是本申请实施例提供的一种面向流水线并行训练的调度策略确定方法的流程图;
[0025]图3是本申请实施例提供的一种内存极限曲线的示意图;
[0026]图4是本申请实施例提供的一种面向流水线并行训练的调度策略确定方法在抢占网络下的优势对比图;
[0027]图5是本申请实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向流水线并行训练的调度策略确定方法,其特征在于,所述方法应用于网络资源抢占场景,所述方法包括:根据任一批次的训练样本集和每个计算节点的属性信息,确定多种候选调度策略,所述计算节点上部署有深度学习模型所切分的训练阶段,所述候选调度策略用于指示每个计算节点基于所述训练样本集对所述深度学习模型进行训练的训练方式,所述候选调度策略包括一种将所述训练样本集均匀拆分成多个训练样本子集的样本拆分方案及对应的最大K值,所述最大K值用于指示每个计算节点在相应样本拆分方案下进行一次前向计算或后向计算时子集数量的最大值,所述最大K值大于等于2;基于每种候选调度策略中的样本拆分方案和各个计算节点之间的关联关系,生成每种候选调度策略对应的任务图像;根据当前网络状态和每种候选调度策略对应的任务图像与最大K值,从多种候选调度策略中,确定出训练时长最短的目标调度策略,所述目标调度策略用于对每个计算节点的计算过程进行控制。2.根据权利要求1所述的方法,其特征在于,所述根据任一批次的训练样本集和每个计算节点的属性信息,确定多种候选调度策略,包括:根据所述训练样本集包括的样本数量,对所述训练样本集进行均匀拆分,得到多种样本拆分方案,每种样本拆分方案包括所拆分的训练样本子集的子集数量和训练样本子集内的样本数量;以每个计算节点的最大存储空间为约束条件,搜索每种样本拆分方案对应的最大K值,得到每种候选调度策略。3.根据权利要求2所述方法,其特征在于,所述以每个计算节点的最大存储空间为约束条件,搜索每种样本拆分方案对应的最大K值,得到每种候选调度策略,包括:在模拟每个计算节点处理每种样本拆分方案下每个训练样本子集内训练样本的过程中,不断增加每个计算节点并行处理的训练样本子集的数量,直至达到任一计算节点的最大存储空间;将每种样本拆分方案下达到最大存储空间时计算节点所计算的子集数量,作为每种样本拆分方案对应的最大K值;将一种样本拆分方案及对应的最大K值组成一种候选调度策略。4.根据权利要求2所述的方法,其特征在于,所述基于每种候选调度策略中的样本拆分方案和各个计算节点之间的关联关系,生成每种候选调度策略对应的任务图像,包括:基于各个计算节点之间的关联关系,为每种候选调度策略下的每个训练样本子集生成对应的子任务图像,得到每种候选调度策略对应的多张子任务图像,所述子任务图像的数量与每种候选调度策略下所拆分的训练样本子集的子集数量相同;将每种候选调度策略对应的多张子任务图像进行融合,得到每种候选调度策略对应的任务图像。5.根据权利要求1所述的方法,其特征在于,所述根据当前网络状态和每种候选调度策略对应的任务图像与最大K值,从多种候选调度策略中,确定出训练时长最短的目标调度策略,包括:根据每种候选调度策略对应的任务图像与最大K值,生成每种候选调度策略对应的候
选调度计划,所述候选调度计划为每个计算节点按照相应的候选调度策略执行模型训练任务时的训练计划;根据所述当前网络状态,通过模拟每个计算节点按照每种候选调度策略对应的候选调度计划进行模型训练的过程,获取每种候选调度策略的训练时长;从多种候选调度策略中,选择出训练时长最短的目标调度策略。6.根据权利要求5所述的方法,其特征在于,所述根据所述...

【专利技术属性】
技术研发人员:王思宇刁岚松曹宗雁佀畅林伟
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1