大模型训练容错方法、系统、终端及存储介质技术方案

技术编号：40517692 阅读：6 留言：0更新日期：2024-03-01 13:35

本发明专利技术提供了一种大模型训练容错方法、系统、终端及存储介质，该方法包括：对大模型集群的集群缓存信息进行故障检测；若故障检测合格，则获取集群缓存信息中故障训练任务的任务信息，根据故障训练任务的任务信息确定故障类型；若故障类型是第一类型，重启故障训练任务，根据重启后的故障训练任务执行大模型训练；若故障类型是第二类型，对故障训练任务进行节点重调度，根据节点调度后的故障训练任务执行大模型训练。本发明专利技术实施例，当故障类型是第一类型时，自动控制故障训练任务进行重启，当故障类型是第二类型时，自动对故障训练任务进行节点重调度，有效地保障了大模型训练任务的执行，无需采用人工的方式进行任务重启，提高了大模型训练效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及模型训练，尤其涉及一种大模型训练容错方法、系统、终端及存储介质。

技术介绍

1、目前百亿或者千亿参数规模的大模型通常由千卡级别的gpu进行长时间的并行训练，服务器不可避免会有各种硬件故障和网络故障等问题，因此，需要提供一种大模型训练容错机制，保障大模型顺利有效的完成训练。

2、现有的大模型训练过程中，一般采用人工手动方式对故障的大模型训练任务进行任务重启，导致人工操作繁琐，降低了大模型训练效率。

技术实现思路

1、本专利技术实施例的目的在于提供一种大模型训练容错方法、系统、终端及存储介质，旨在解决现有的大模型训练效率低下的问题。

2、本专利技术实施例是这样实现的，一种大模型训练容错方法，所述方法包括：

3、获取大模型集群的集群缓存信息，并对所述集群缓存信息进行故障检测，所述故障检测用于检测所述大模型集群中是否存在故障训练任务；

4、若所述故障检测合格，则获取所述集群缓存信息中所述故障训练任务的任务信息，并根据所述故障训练任务的任务信息确定故障类型；

5、若所述故障类型是第一类型，则重启所述故障训练任务，根据重启后的所述故障训练任务执行大模型训练；

6、若所述故障类型是第二类型，则对所述故障训练任务进行节点重调度，并根据节点调度后的所述故障训练任务执行大模型训练。

7、优选的，对所述集群缓存信息进行故障检测，包括：

8、分别获取所述集群缓存信息中各大模型训练任务的任务信息；</p>

9、若任一所述大模型训练任务的任务信息中存储有失败信息，则判定所述大模型训练任务的故障检测合格。

10、优选的，根据所述故障训练任务的任务信息确定故障类型，包括：

11、获取所述大模型训练任务的任务信息中的失败信息，并获取所述失败信息中的任务失败描述和节点状态信息；

12、若所述任务失败描述是节点卡不健康，则根据所述节点状态信息对所述故障训练任务进行节点卡恢复；

13、若节点卡恢复成功，则将所述故障训练任务的故障类型确定为第一类型；

14、若节点卡恢复失败，则将所述故障训练任务的故障类型确定为第二类型；

15、若所述任务失败描述是节点不健康，则将所述故障训练任务的故障类型确定为第二类型。

16、优选的，根据所述节点状态信息对所述故障训练任务进行节点卡恢复，包括：

17、根据所述节点状态信息中的故障卡标签确定目标故障计算卡，并对各目标故障计算卡进行重启；

18、若重启后的各目标故障计算卡均恢复正常，则判定节点卡恢复成功；

19、若任一重启后的所述目标故障计算卡未恢复正常，则判定节点卡恢复失败。

20、优选的，对所述故障训练任务进行节点重调度，包括：

21、获取所述大模型集群中的空闲计算卡信息，并对所述空闲计算卡信息和所述故障训练任务进行重调度检测；

22、若重调度检测合格，则对所述空闲计算卡信息进行节点筛选，并根据节点筛选后的所述空闲计算卡信息确定目标任务节点；

23、将所述故障训练任务调度至所述目标任务节点上。

24、优选的，对所述空闲计算卡信息和所述故障训练任务进行重调度检测之后，还包括：

25、若重调度检测不合格，则获取所述故障训练任务的任务优先级，并根据所述任务优先级确定所述大模型集群中的待回收资源；

26、对所述待回收资源进行资源回收，并返回执行获取所述大模型集群中的空闲计算卡信息的步骤，直至将所述故障训练任务调度至所述目标任务节点上。

27、优选的，对所述集群缓存信息进行故障检测，包括：

28、分别获取所述集群缓存信息中各大模型训练任务的任务信息，并根据各大模型训练任务的任务信息确定任务运行状态和节点运行状态；

29、若任一所述任务运行状态和/或所述节点运行状态为中止状态，则判定所述任务运行状态和/或所述节点运行状态对应的大模型训练任务的故障检测合格。

30、本专利技术实施例的另一目的在于提供一种大模型训练容错系统，所述系统包括：

31、故障发现模块，用于获取大模型集群的集群缓存信息，并对所述集群缓存信息进行故障检测，所述故障检测用于检测所述大模型集群中是否存在故障训练任务；

32、容错模块，用于若所述故障检测合格，则获取所述集群缓存信息中所述故障训练任务的任务信息，并根据所述故障训练任务的任务信息确定故障类型；

33、故障任务重调度模块，用于若所述故障类型是第一类型，则重启所述故障训练任务，根据重启后的所述故障训练任务执行大模型训练；

34、若所述故障类型是第二类型，则对所述故障训练任务进行节点重调度，并根据节点调度后的所述故障训练任务执行大模型训练。

35、本专利技术实施例的另一目的在于提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

36、本专利技术实施例的另一目的在于提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

37、本专利技术实施例，通过对集群缓存信息进行故障检测，能自动检测大模型集群中是否存在故障训练任务，无需采用人工的方式进行故障训练任务的检测，通过获取集群缓存信息中故障训练任务的任务信息，能有效地确定到故障类型，当故障类型是第一类型时，自动控制故障训练任务进行重启，当故障类型是第二类型时，自动对故障训练任务进行节点重调度，有效地保障了大模型训练任务的执行，无需采用人工的方式进行任务重启，提高了大模型训练效率。

本文档来自技高网...

【技术保护点】

1.一种大模型训练容错方法，其特征在于，所述方法包括：

2.如权利要求1所述的大模型训练容错方法，其特征在于，对所述集群缓存信息进行故障检测，包括：

3.如权利要求2所述的大模型训练容错方法，其特征在于，根据所述故障训练任务的任务信息确定故障类型，包括：

4.如权利要求3所述的大模型训练容错方法，其特征在于，根据所述节点状态信息对所述故障训练任务进行节点卡恢复，包括：

5.如权利要求1所述的大模型训练容错方法，其特征在于，对所述故障训练任务进行节点重调度，包括：

6.如权利要求5所述的大模型训练容错方法，其特征在于，对所述空闲计算卡信息和所述故障训练任务进行重调度检测之后，还包括：

7.如权利要求1所述的大模型训练容错方法，其特征在于，对所述集群缓存信息进行故障检测，包括：

8.一种大模型训练容错系统，其特征在于，所述系统包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种大模型训练容错方法，其特征在于，所述方法包括：

2.如权利要求1所述的大模型训练容错方法，其特征在于，对所述集群缓存信息进行故障检测，包括：

3.如权利要求2所述的大模型训练容错方法，其特征在于，根据所述故障训练任务的任务信息确定故障类型，包括：

4.如权利要求3所述的大模型训练容错方法，其特征在于，根据所述节点状态信息对所述故障训练任务进行节点卡恢复，包括：

5.如权利要求1所述的大模型训练容错方法，其特征在于，对所述故障训练任务进行节点重调度，包括：

6.如权利要求5所述的大模型训练容错方法，其特征在于，对所述空...

【专利技术属性】
技术研发人员：吕冬冬，刘青松，梁家恩，
申请(专利权)人：四川云知声智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人