大模型并行训练方法、系统及可读存储介质技术方案

技术编号：39957316 阅读：4 留言：0更新日期：2024-01-08 23:46

本申请提供了一种大模型并行训练方法、系统及可读存储介质，所述包括：构建分布式训练系统，所述分布式训练系统包括k个交换机，所述k个交换机下分别有m1、m2、m3、...mk台机器；确定大模型并行策略，得到数据并行组数DP、流水线并行组数PP和张量并行组数TP的具体参数值分别为D、P和T；利用贪心算法搜索满足大模型训练的通信量所需的最少跨交换机数量w和所述w个交换机下所需机器在并行训练中的执行顺序数组Rank；基于所述Rank执行大模型的并行训练。本申请提高了大模型并行训练计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机应用，尤其涉及一种大模型并行训练方法、系统及可读存储介质。

技术介绍

1、随着大模型良好的模型效果和广阔的应用前景，模型参数量的规模呈现快速增长的趋势，从2018年1亿参数规模的模型增长至今已达千亿参数量规模。

2、大模型的出现给底层的基础设施带来极大的挑战。即使使用a800、h800这样的gpu，单张gpu的算力和显存都是远远无法满足大模型训练需求，千卡万卡以上的大规模并行训练是大模型成功的基础。为了保证大模型可训练，在资源效能层面完成计算墙、显存墙、通信墙的突破，提高整体训练吞吐，分布式并行技术从单一的基础并行策略演进为数据并行、张量模型并行、流水线并行多种并行策略的组合。不同的并行策略，会产生不同的数据通信需求，通信性能将影响整体计算速度。

3、高性能集群并不是算力的简单堆积，还需要经过专门的调度设计和优化，才能发挥出集群的整体算力。现有的调度算法在大模型分布式并行训练场景下，由于缺乏对复杂并行策略的感知，难以产生最优的调度结果。例如大通信带宽的进程被调度到不同交换机的节点上，通信要经过最顶层的交换机进行通信，导致严重影响训练性能，极端情况下会引起严重的网络拥塞的后果，出现集群规模越大，训练效率反而会降低的情况。

4、因此，现有技术还有待于改进和发展。

技术实现思路

1、本申请的一个目的是提供一种大模型并行训练方法、系统及可读存储介质，至少用以解决现有利用集群计算资源训练大模型效率不高问题。

2、为实现上述目的，

3、第一方面，本申请的一些实施例还提供了一种大模型并行训练方法，所述大模型并行训练方法包括：

4、构建分布式训练系统，所述分布式训练系统包括k个交换机分别为n1、n2、n3....、nk，所述k个交换机下分别有m1、m2、m3、....mk台机器，所述机器包含gpu；

5、确定大模型并行策略，得到数据并行组数dp、流水线并行组数pp和张量并行组数tp的具体参数值分别为d、p和t，大模型并行训练的通信量随之固定；

6、利用贪心算法搜索满足执行d组数据并行、p组流水线并行和t组张量并行的大模型训练的通信量所需的最少跨交换机数量w和所述w个交换机下所需机器m’1、m’2、m’3、....m’w在并行训练中的执行顺序数组rank，所述rank表示全域间的进程标识；

7、基于所述rank执行大模型的并行训练。

8、第二方面，本申请的一些实施例还提供了一种大模型并行训练系统，所述大模型并行训练系统包括：

9、k个交换机分别为n1、n2、n3....、nk，所述k个交换机下分别有m1、m2、m3、....mk台机器，所述机器包含gpu；

10、并行策略模块用于确定大模型并行策略，得到数据并行组数dp、流水线并行组数pp和张量并行组数tp的具体参数值分别为d、p和t，大模型并行训练的通信量随之固定；

11、调度策略模块用于利用贪心算法搜索满足执行d组数据并行、p组流水线并行和t组张量并行的大模型训练的通信量所需的最少跨交换机数量w和所述w个交换机下所需机器m’1、m’2、m’3、....m’w在并行训练中的执行顺序数组rank，所述rank表示全域间的进程标识；

12、训练执行模块用于基于所述rank执行大模型的并行训练。

13、第三方面，本申请的一些实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有支持异构集群下的模型并行训练程序，所述支持异构集群下的模型并行训练程序被处理器执行时实现上述所述的大模型并行训练方法的步骤。

14、本申请本专利技术通过构建分布式训练系统，所述分布式训练系统包括k个交换机，所述k个交换机下分别有若干台机器，所述机器包含gpu；确定大模型并行策略，得到数据并行组数dp、流水线并行组数pp和张量并行组数tp的具体参数值分别为d、p和t，大模型并行训练的通信量随之固定；利用贪心算法搜索满足执行d组数据并行、p组流水线并行和t组张量并行的大模型训练的通信量所需的最少跨交换机数量w和所述w个交换机下所需机器在并行训练中的执行顺序数组rank，所述rank表示全域间的进程标识；基于所述rank执行大模型的并行训练。通过并行策略确定和并行训练调度两部分，并行训练调度利用并行策略确定得到的三个参数采用贪心算法搜索满足计算通信量所需的最小跨交换机数量和各交换机下所需机器数量以及对应在全局中的rank id，基于该rank id执行大模型训练极大的提高了大模型训练效率。

本文档来自技高网...

【技术保护点】

1.一种大模型并行训练方法，其特征在于，所述大模型并行训练方法包括：

2.根据权利要求1所述的大模型并行训练方法，其特征在于，所述TP数T设置为8，即单机内8GPU卡通信。

3.根据权利要求1所述的大模型并行训练方法，其特征在于，所述利用贪心算法搜索满足执行D组数据并行、P组流水线并行和T组张量并行的大模型训练的通信量所需的最少跨交换机数量w和所述w个交换机下所需机器m’1、m’2、m’3、....m’w在并行训练中的执行顺序数组Rank具体为：

4.根据权利要求1所述的大模型并行训练方法，其特征在于，所述所需机器m’1、m’2、m’3、....m’w在并行训练中的执行顺序数组Rank被确定后被记录到Configmap中，所述所需GPU服务器使用configMapRef从configmap中获取Rank信息。

5.根据权利要求4所述的大模型并行训练方法，其特征在于，在所述Configmap准备完成之前，所有训练任务均处于等待状态；在所述Confgimap生成之后，保证所有相关联的进程能够同时启动，不允许有异常进程的存在。

>6.根据权利要求1所述的大模型并行训练方法，所述确定大模型并行策略，得到数据并行组数DP、流水线并行组数PP和张量并行组数TP的具体参数值分别为D、P和T，具体的可以基于专家经验得到或者基于自动搜索方法得到。

7.一种大模型并行训练系统，其特征在于，所述大模型并行训练系统包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有支持异构集群下的模型并行训练程序，所述支持异构集群下的模型并行训练程序被处理器执行时实现如权利要求1-6任一项所述的大模型并行训练方法的步骤。

...

【技术特征摘要】

1.一种大模型并行训练方法，其特征在于，所述大模型并行训练方法包括：

2.根据权利要求1所述的大模型并行训练方法，其特征在于，所述tp数t设置为8，即单机内8gpu卡通信。

3.根据权利要求1所述的大模型并行训练方法，其特征在于，所述利用贪心算法搜索满足执行d组数据并行、p组流水线并行和t组张量并行的大模型训练的通信量所需的最少跨交换机数量w和所述w个交换机下所需机器m’1、m’2、m’3、....m’w在并行训练中的执行顺序数组rank具体为：

4.根据权利要求1所述的大模型并行训练方法，其特征在于，所述所需机器m’1、m’2、m’3、....m’w在并行训练中的执行顺序数组rank被确定后被记录到configmap中，所述所需gpu服务器使用configmapref从configmap中获取rank信息。<...

【专利技术属性】
技术研发人员：朱亦博，许晨，
申请(专利权)人：上海阶跃星辰智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人