大模型训练系统、方法、计算设备及存储介质技术方案

技术编号:46624540 阅读:1 留言:0更新日期:2025-10-14 21:20
本申请提供了一种大模型训练系统、方法、计算设备及存储介质,属于人工智能技术领域。该方法中,利用执行相同训练任务的多个计算卡产生相同的checkpoint的特点,对大模型训练系统中的多个计算卡进行分组,一组计算卡所在的计算节点的内存中形成同一份checkpoint的多个备份,响应于训练恢复指令,不同计算卡组中的计算卡进行通信,以获取全量的checkpoint,进而基于全量的checkpoint进行训练恢复。由于每个计算卡所在的计算节点保存了部分的checkpoint,数据量较小,在进行训练恢复时,计算卡加载checkpoint的效率较高,训练恢复效率较高,能够减少对计算资源的浪费。

【技术实现步骤摘要】

本申请涉及人工智能,特别涉及一种大模型训练系统、方法、计算设备及存储介质


技术介绍

1、在人工智能(artificial intelligence,ai)大模型训练中,通常通过分布式集群来对大模型进行训练。其中,该分布式集群包括多个计算节点,每个计算节点包括至少一个计算卡。在分布式训练过程中会产生如模型权重、优化器状态、梯度和训练周期数目等参数。分布式集群会以固定频率将所产生的参数保存为检查点(checkpoint),从而在分布式集群中的计算节点出现故障的情况下,分布式集群能够加载最新一次保存的checkpoint,基于该checkpoint恢复训练,进而避免从头进行训练,能够节约故障损失,提高训练效率。

2、相关技术中,分布式集群中每个计算节点将本节点上的计算卡生成的checkpoint在本节点的内存中,并按照一定的多副本策略,分别在另外的m个计算节点上各形成一个副本(m大于或等于1),若用户中止训练后再重启训练,则每个计算节点上的计算卡从所在的计算节点的内存中加载checkpoint,基于该checkpoint进行训练恢复;若任一计算节点本文档来自技高网...

【技术保护点】

1.一种大模型训练系统,其特征在于,所述大模型训练系统包括多个计算卡,所述多个计算卡位于多个计算节点上,所述计算节点包括内存,所述多个计算卡包括第一计算卡组和第二计算卡组,所述多个计算卡组用于执行相同的训练任务,在所述训练任务的第一迭代中,所述第一计算卡组和所述第二计算卡组中的计算卡分别产生相同的检查点checkpoint,所述checkpoint包括所述训练任务的第一迭代的权重参数、优化器状态、梯度和训练周期数目中至少一项,所述checkpoint包括第一checkpoint和第二checkpoint,所述第一计算卡组中的多个计算卡所在的多个计算节点上存储有所述第一checkpoint...

【技术特征摘要】

1.一种大模型训练系统,其特征在于,所述大模型训练系统包括多个计算卡,所述多个计算卡位于多个计算节点上,所述计算节点包括内存,所述多个计算卡包括第一计算卡组和第二计算卡组,所述多个计算卡组用于执行相同的训练任务,在所述训练任务的第一迭代中,所述第一计算卡组和所述第二计算卡组中的计算卡分别产生相同的检查点checkpoint,所述checkpoint包括所述训练任务的第一迭代的权重参数、优化器状态、梯度和训练周期数目中至少一项,所述checkpoint包括第一checkpoint和第二checkpoint,所述第一计算卡组中的多个计算卡所在的多个计算节点上存储有所述第一checkpoint的多个副本,所述第二计算卡组中的多个计算卡所在的多个计算节点上存储有所述第二checkpoint的多个副本;

2.根据权利要求1所述的系统,其特征在于,所述第一计算卡组包括第一计算卡和第二计算卡,所述第二计算卡组包括第三计算卡和第四计算卡;

3.根据权利要求1所述的系统,其特征在于,所述第一checkpoint和所述第二checkpoint组成所述checkpoint。

4.根据权利要求1至3中任一项所述的系统,其特征在于,所述大模型训练系统还包括控制节点,所述控制节点用于:

5.根据权利要求4所述的系统,其特征在于,所述第一计算卡组和第二计算卡组中的计算卡还用于:

6.根据权利要求4或5所述的系统,其特征在于,所述控制节点还用于:

7.根据权利要求4至6中任一项所述的系统,其特征在于,所述大模型训练系统还包括存储设备;

8.根据权利要求7所述的系统,其特征在于,所述第一计算卡所在的计算节点的内存包括第一缓冲区和第二缓冲区;

9.根据权利要求8所述的系统,其特征在于,所述第一计算卡所在的计算节点的内存还包括第三缓冲区;

10.根据权利要求1至9中任一项所述的系统,其特征在于,所述第一计算卡组中的计算卡用于:

11.根据权利要求10所述的系统,其特征在于,所述大模型训练系统还包括第一计算节点,所述第一计算节点用于替换发生故障的计算节点;

12.一种大模型训练方法,其特征在于,应用于大模型训练系统,所述大模型训练系统包括多个计算卡,所述多个计算卡位于多个计算节点上,所述计算节点包括内存,所述多个计算卡包括第一计算卡组和第二计算卡组,所述多个计算卡组用于执行相同的训练任务,在所述训练任务的第一迭代中,所述第一计算卡组和所述第二计算卡组中的计算卡分别产生相同的检查点checkpoint,所述checkpoint包括所述训练任务的第一迭代的权重参数、优化器状态和梯度中至少一项,所述checkpoint包括第一check...

【专利技术属性】
技术研发人员:左鹏飞姚以真江畅乐杨幸坤邱钊
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1