System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 针对模型训练任务的异常处理系统、集群、设备和介质技术方案_技高网

针对模型训练任务的异常处理系统、集群、设备和介质技术方案

技术编号:40119739 阅读:8 留言:0更新日期:2024-01-23 20:28
本公开涉及一种针对模型训练任务的异常处理系统、集群、设备和介质,所述系统包括:控制进程以及至少两个管理进程;任一pod中的管理进程被配置为执行:在接收到模型训练任务发生异常的告警信息的情况下,暂停pod中的训练进程并执行预设的硬件设施检查任务,得到检查结果;在检查结果指示训练节点的硬件设施故障的情况下,将故障的训练节点的节点信息发送至控制进程;控制进程被配置为执行:根据管理进程发送的节点信息,在集群中的正常节点中创建pod,以使用正常节点中的训练进程执行故障的训练节点的训练进程所执行的子任务。本公开实施例可实现模型训练任务异常后自动恢复模型训练任务,提高模型训练任务异常的处理效率。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种针对模型训练任务的异常处理系统、集群、设备和介质


技术介绍

1、ai(artificial intelligence,人工智能)技术作为一种前沿技术可以代替人类完成分类、文字识别、语音转换、决策等工作,已经广泛应用于各行各业。随着应用场景越来越复杂,ai技术使用的ai模型也越来越庞大,传统的依靠单机和加速设备进行大模型训练已经无法满足需求,因此分布式大模型训练成为了主流,使用集群中多台主机上的加速设备可以共同辅助训练一个大模型,以加速训练进程。而大模型训练比较复杂的是部署和训练进程管理的问题,给技术人员带来的额外的运维负担,由此ai计算平台应运而生,其致力于解决大模型训练中遇到的运维问题,为算法工程师提供一键训练、部署大模型的能力。ai计算平台可以实现对多集群、多加速设备的按需申请、按量分配、按指标调度。ai计算平台为大模型训练任务的管理提供了良好的便捷性和灵活性,使得大模型训练任务可以有效利用多台加速设备实现快速收敛,提升模型开发迭代的速度。

2、然而,目标的ai计算平台对集群执行的大规模模型训练任务的管理方式较为简单,对模型训练任务异常的处理较为低效,具体地,由于集群中节点的硬件设施的故障率较高,使得大模型训练任务异常的频率也很高,而现有ai计算平台缺少对节点故障导致大模型训练任务异常的容错能力,一旦节点故障则导致整个训练任务失败;并且现有ai计算平台在大模型训练任务出现异常后,只能依靠人工定位原因以及故障的节点,以及模型训练任务异常后通常需要人工重启,从而拉长了执行模型训练任务的耗费时长,这给技术人员带来了极大的工作量,使得模型训练任务异常时的处理效率较低。


技术实现思路

1、本公开提出了一种针对模型训练任务的异常处理技术方案。

2、根据本公开的一方面,提供了一种针对模型训练任务的异常处理系统,所述系统包括:控制进程以及至少两个管理进程,其中,所述控制进程位于集群中的控制节点,所述至少两个管理进程分别位于所述集群中用于执行所述模型训练任务的至少一个训练节点的至少两个计算单元pod中,每个pod中还包括训练进程,每个pod中的管理进程用于管理每个pod中的训练进程,每个pod中的训练进程用于执行所述模型训练任务的子任务;任一pod中的管理进程被配置为执行:在接收到所述模型训练任务发生异常的告警信息的情况下,暂停pod中的训练进程,并执行预设的硬件设施检查任务,得到检查结果,所述硬件设施检查任务用于检查管理进程所在训练节点的硬件设施是否故障;在所述检查结果指示训练节点的硬件设施故障的情况下,将故障的训练节点的节点信息发送至所述控制进程;所述控制进程被配置为执行:根据管理进程发送的节点信息,在所述集群中的正常节点中创建pod,以使用正常节点中创建的pod中的训练进程执行所述故障的训练节点中pod的训练进程所执行的子任务。

3、在一种可能的实现方式中,所述管理进程还被配置为执行:在所述至少两个训练节点中的pod中的管理进程执行硬件设施检查任务的检查结果指示所述至少两个训练节点的硬件设施未故障的情况下,重启所述管理进程所在pod中的训练进程。

4、在一种可能的实现方式中,所述根据管理进程发送的节点信息,在所述集群中的正常节点中创建pod,包括:在所述模型训练任务的重启次数未超过预设阈值的情况下,根据管理进程发送的节点信息,在所述集群中的正常节点中创建pod,其中,所述模型训练任务的重启次数包括由于训练节点故障使得所述控制进程在正常节点中重新创建pod的次数。

5、在一种可能的实现方式中,所述控制进程还被配置为执行:在所述模型训练任务的重启次数超过所述预设阈值的情况下,确定所述模型训练任务执行失败,并控制所述集群退出执行所述模型训练任务。

6、在一种可能的实现方式中,所述硬件设施检查任务包括以下至少一种:检查训练节点对应的存储卷是否丢失,所述存储卷用于存储执行模型训练任务所需的数据和代码;检查训练节点中的gpu是否正常运行;检查训练节点中的gpu之间通信是否正常;检查训练节点之间的网络通信是否正常。

7、在一种可能的实现方式中,所述控制进程还被配置为执行:根据所述模型训练任务对应的描述对象,在所述模型训练任务对应的至少一个训练节点中创建至少两个pod,以及,为所述模型训练任务创建其它资源,每个训练节点中创建有至少一个pod,创建的每个pod中包括管理进程和训练进程;其中,所述描述对象用于描述所述模型训练任务所需的集群资源,所述集群资源包括计算资源以及其它资源,所述计算资源包括执行所述模型训练任务所需的pod数量,所述其它资源包括存储资源和网络资源。

8、在一种可能的实现方式中,所述管理进程还被配置为执行:在启动pod中的训练进程之前,执行硬件设施预热任务,得到预热结果,所述硬件设施预热任务包括所述硬件设施检查任务,和/或,检查训练节点上不同进程之间通信是否已建立,所述预热结果指示所述管理进程所在训练节点是否能执行子任务;在所述预热结果指示管理进程所在训练节点能执行子任务的情况下,开始启动pod中的训练进程;或,在所述预热结果指示管理进程所在训练节点不能执行子任务的情况下,将所述管理进程所在的训练节点的节点信息发送至所述控制进程,以使所述控制进程根据管理进程发送的节点信息,在所述集群中的正常节点中创建pod。

9、在一种可能的实现方式中,所述至少两个管理进程中包括一个主管理进程以及至少一个从管理进程;所述主管理进程被配置为执行:在接收到所述模型训练任务发生异常的告警信息的情况下,暂停pod中的训练进程并执行硬件设施检查任务,以及,向各个从管理进程发送控制指令,以控制各个从管理进程同步暂停训练进程并执行硬件设施检查任务;各个从管理进程被配置为执行:在接收到所述主管理进程发送的所述控制指令的情况下,暂停pod中的训练进程并执行硬件设施检查任务,以及,将执行硬件设备检查任务所得到的检查结果发送至所述主管理进程;所述主管理进程被配置为执行:在各个从管理进程发送的检查结果表征各个从管理进程所在训练节点中存在故障的训练节点,和/或,所述主管理进程所在的训练节点故障的情况下,将故障的训练节点的节点信息发送至所述控制进程,以使所述控制进程根据所述主管理进程发送的节点信息,在所述集群中的正常节点中创建pod。

10、在一种可能的实现方式中,所述主管理进程还被配置为执行:在各个从管理进程发送的检查结果表征各个从管理进程所在训练节点均未故障,且所述主管理进程所在的训练节点也未故障的情况下,重启pod中的训练进程,以及,向各个从管理进程发送重启指令,以控制各个从管理进程同步重启训练进程。

11、在一种可能的实现方式中,所述至少两个管理进程分别位于至少两个训练节点的至少两个计算单元pod中,所述主管理进程还被配置为执行:使用二分法查找所述至少两个训练节点中是否存在故障的训练节点。

12、根据本公开的一方面,提供了一种集群,包括:控制节点以及用于执行模型训练任务的至少一个本文档来自技高网...

【技术保护点】

1.一种针对模型训练任务的异常处理系统,其特征在于,所述系统包括:

2.根据权利要求1所述的系统,其特征在于,所述管理进程还被配置为执行:

3.根据权利要求1或2所述的系统,其特征在于,所述根据管理进程发送的节点信息,在所述集群中的正常节点中创建pod,包括:

4.根据权利要求3所述的系统,其特征在于,所述控制进程还被配置为执行:

5.根据权利要求1至4任一项所述的系统,其特征在于,所述硬件设施检查任务包括以下至少一种:

6.根据权利要求5所述的系统,其特征在于,所述管理进程还被配置为执行:

7.根据权利要求1所述的系统,其特征在于,所述控制进程还被配置为执行:

8.根据权利要求1至7任一项所述的系统,其特征在于,所述至少两个管理进程中包括一个主管理进程以及至少一个从管理进程;

9.根据权利要求8所述的系统,其特征在于,所述主管理进程还被配置为执行:在各个从管理进程发送的检查结果表征各个从管理进程所在训练节点均未故障,且所述主管理进程所在的训练节点也未故障的情况下,重启pod中的训练进程,以及,向各个从管理进程发送重启指令,以控制各个从管理进程同步重启训练进程。

10.根据权利要求8所述的系统,其特征在于,所述至少两个管理进程分别位于至少两个训练节点的至少两个计算单元pod中,所述主管理进程还被配置为执行:使用二分法查找所述至少两个训练节点中是否存在故障的训练节点。

11.一种集群,其特征在于,包括:控制节点以及用于执行模型训练任务的至少一个训练节点,每个训练节点中部署有至少一个pod,其中,所述控制节点部署有权利要求1至10任一项所述系统中的控制进程,所述训练节点中的每个pod包括权利要求1至10任一项所述系统中的管理进程与训练进程。

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至10中任意一项所述的系统。

...

【技术特征摘要】

1.一种针对模型训练任务的异常处理系统,其特征在于,所述系统包括:

2.根据权利要求1所述的系统,其特征在于,所述管理进程还被配置为执行:

3.根据权利要求1或2所述的系统,其特征在于,所述根据管理进程发送的节点信息,在所述集群中的正常节点中创建pod,包括:

4.根据权利要求3所述的系统,其特征在于,所述控制进程还被配置为执行:

5.根据权利要求1至4任一项所述的系统,其特征在于,所述硬件设施检查任务包括以下至少一种:

6.根据权利要求5所述的系统,其特征在于,所述管理进程还被配置为执行:

7.根据权利要求1所述的系统,其特征在于,所述控制进程还被配置为执行:

8.根据权利要求1至7任一项所述的系统,其特征在于,所述至少两个管理进程中包括一个主管理进程以及至少一个从管理进程;

9.根据权利要求8所述的系统,其特征在于,所述主管理进程还被配置为执行:在各个从管理进程发送的检查结果表征各个...

【专利技术属性】
技术研发人员:李青坪陈旭吴保东项铁尧陈宇恒
申请(专利权)人:上海商汤科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1