面向流水线并行训练的调度策略确定方法及系统技术方案

技术编号：38225006 阅读：16 留言：0更新日期：2023-07-25 17:56

本申请提供了一种面向流向线并行训练的调度策略确定方法及系统，属于云计算技术领域。所述方法包括：根据训练样本集和每个计算节点的属性信息，确定多种候选调度策略，候选调度策略包括一种将训练样本集均匀拆分成多个训练样本子集的样本拆分方案及对应的最大K值，最大K值用于指示每个计算节点在相应样本拆分方案下进行一次前向计算或后向计算时子集数量的最大值；基于每种候选调度策略中的样本拆分方案和各个计算节点之间的关联关系，生成每种候选调度策略对应的任务图像；根据当前网络状态和每种候选调度策略对应的任务图像与最大K值，确定出训练时长最短的目标调度策略。本申请能够在网络资源抢占的情况下，提高模型的训练效率。模型的训练效率。模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
面向流水线并行训练的调度策略确定方法及系统

[0001]本申请涉及云计算
，特别涉及一种面向流向线并行训练的调度策略确定方法及系统。

技术介绍

[0002]随着深度学习的不断发展，深度学习模型的规模越来越大。对于大模型训练来说，分布式训练方式尤为关键。流水线并行训练作为一种重要的分布式训练方式，通过将深度学习模型按层切分成前后衔接的多个训练阶段(简称stage)，进而将多个stage部署到多个计算节点上，通过采用合理的调度策略，控制多个计算节点的计算顺序，从而完成深度学习模型的训练任务。
[0003]目前，采用流水线并行训练方式进行训练时，通常会将用于每轮训练的训练样本集合均匀切分成多个训练样本子集，每个计算节点按照1F1B的调度策略进行训练。其中，F(即forward)是指深度学习训练的前向计算阶段，B(即backward)是指深度学习训练的后向计算阶段。1F1B的调度策略是指每个计算节点一次进行前向计算或后向计算的训练样本子集的数量为1个。采用1F1B的调度策略，网络资源占用较多，在网络资源抢占场景下，模型训练效率较低。
[0004]因此，亟需提供一种新的面向流水线并行训练的调度策略确定方法，从而能够在网络资源抢占场景下，也能获得较高的模型训练效率。

技术实现思路

[0005]本申请实施例提供了一种面向流水线并行训练的调度策略确定方法及系统，能够在网络资源抢占场景下，获取较高的模型训练效率。所述技术方案如下：
[0006]第一方面，提供了一种面向流水线并行训练的调度策...

【技术保护点】

【技术特征摘要】
1.一种面向流水线并行训练的调度策略确定方法，其特征在于，所述方法应用于网络资源抢占场景，所述方法包括：根据任一批次的训练样本集和每个计算节点的属性信息，确定多种候选调度策略，所述计算节点上部署有深度学习模型所切分的训练阶段，所述候选调度策略用于指示每个计算节点基于所述训练样本集对所述深度学习模型进行训练的训练方式，所述候选调度策略包括一种将所述训练样本集均匀拆分成多个训练样本子集的样本拆分方案及对应的最大K值，所述最大K值用于指示每个计算节点在相应样本拆分方案下进行一次前向计算或后向计算时子集数量的最大值，所述最大K值大于等于2；基于每种候选调度策略中的样本拆分方案和各个计算节点之间的关联关系，生成每种候选调度策略对应的任务图像；根据当前网络状态和每种候选调度策略对应的任务图像与最大K值，从多种候选调度策略中，确定出训练时长最短的目标调度策略，所述目标调度策略用于对每个计算节点的计算过程进行控制。2.根据权利要求1所述的方法，其特征在于，所述根据任一批次的训练样本集和每个计算节点的属性信息，确定多种候选调度策略，包括：根据所述训练样本集包括的样本数量，对所述训练样本集进行均匀拆分，得到多种样本拆分方案，每种样本拆分方案包括所拆分的训练样本子集的子集数量和训练样本子集内的样本数量；以每个计算节点的最大存储空间为约束条件，搜索每种样本拆分方案对应的最大K值，得到每种候选调度策略。3.根据权利要求2所述方法，其特征在于，所述以每个计算节点的最大存储空间为约束条件，搜索每种样本拆分方案对应的最大K值，得到每种候选调度策略，包括：在模拟每个计算节点处理每种样本拆分方案下每个训练样本子集内训练样本的过程中，不断增加每个计算节点并行处理的训练样本子集的数量，直至达到任一计算节点的最大存储空间；将每种样本拆分方案下达到最大存储空间时计算节点所计算的子集数量，作为每种样本拆分方案对应的最大K值；将一种样本拆分方案及对应的最大K值组成一种候选调度策略。4.根据权利要求2所述的方法，其特征在于，所述基于每种候选调度策略中的样本拆分方案和各个计算节点之间的关联关系，生成每种候选调度策略对应的任务图像，包括：基于各个计算节点之间的关联关系，为每种候选调度策略下的每个训练样本子集生成对应的子任务图像，得到每种候选调度策略对应的多张子任务图像，所述子任务图像的数量与每种候选调度策略下所拆分的训练样本子集的子集数量相同；将每种候选调度策略对应的多张子任务图像进行融合，得到每种候选调度策略对应的任务图像。5.根据权利要求1所述的方法，其特征在于，所述根据当前网络状态和每种候选调度策略对应的任务图像与最大K值，从多种候选调度策略中，确定出训练时长最短的目标调度策略，包括：根据每种候选调度策略对应的任务图像与最大K值，生成每种候选调度策略对应的候
选调度计划，所述候选调度计划为每个计算节点按照相应的候选调度策略执行模型训练任务时的训练计划；根据所述当前网络状态，通过模拟每个计算节点按照每种候选调度策略对应的候选调度计划进行模型训练的过程，获取每种候选调度策略的训练时长；从多种候选调度策略中，选择出训练时长最短的目标调度策略。6.根据权利要求5所述的方法，其特征在于，所述根据所述...

【专利技术属性】
技术研发人员：王思宇，刁岚松，曹宗雁，佀畅，林伟，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人