System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理,具体为人工智能和深度学习等领域,尤其涉及一种基于集群的训练方法、装置、电子设备及存储介质。
技术介绍
1、随着人工智能(artificial intelligence,ai)的不断发展,对模型的训练需求也越来越大。
2、对于算力需求较高的训练场景,例如大模型训练场景,为了提高大模型的训练效率,相关研究人员提出使用集群对大模型进行训练。然而,在使用集群对大模型进行训练时,虽然集群提供了较高的算力,在一定程度上提高了模型训练效率,但集群中单个节点发生故障会导致集群停止训练作业,进而影响模型的训练效率,因此,在使用集群对模型进行训练时,有必要进一步提高模型的训练效率。
技术实现思路
1、本公开提供了一种基于集群的训练方法、装置、设备以及存储介质。
2、根据本公开的一方面,提供了一种基于集群的训练方法,所述集群中包括用于执行模型训练任务的训练节点和多个备用节点,包括:
3、响应于训练节点存在硬件故障,从多个备用节点中选取目标备用节点,以及获取所述训练节点中模型训练任务的目标训练快照;所述目标训练快照中包括所述模型训练任务的训练状态数据;
4、基于所述训练节点中模型训练程序的容器镜像和所述训练状态数据,对所述目标备用节点进行初始化,以使所述目标备用节点接替所述训练节点继续执行所述模型训练任务。
5、根据本公开的第二方面,提供了一种基于集群的训练装置,所述集群中包括用于执行模型训练任务的训练节点和多个备用节点,包括
6、第一响应模块,用于响应于训练节点存在硬件故障,从多个备用节点中选取目标备用节点,以及获取所述训练节点中模型训练任务的目标训练快照;所述目标训练快照中包括所述模型训练任务的训练状态数据;
7、初始化模块,用于基于所述训练节点中模型训练程序的容器镜像和所述训练状态数据,对所述目标备用节点进行初始化,以使所述目标备用节点接替所述训练节点继续执行所述模型训练任务。
8、根据本公开的第三方面,提供了一种电子设备,包括:
9、至少一个处理器;以及
10、与所述至少一个处理器通信连接的存储器;其中,
11、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的基于集群的训练方法。
12、根据本公开第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面所述的基于集群的训练方法。
13、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令在被处理器执行时实现如第一方面所述的基于集群的训练方法的步骤。
14、本公开提供的一种基于集群的训练方法、装置及电子设备,存在如下有益效果:本公开响应于训练节点存在硬件故障,从多个备用节点中选取目标备用节点,以及获取训练节点中模型训练任务的目标训练快照;目标训练快照中包括模型训练任务的训练状态数据;基于训练节点中模型训练程序的容器镜像和训练状态数据,对目标备用节点进行初始化,以使目标备用节点接替训练节点继续执行模型训练任务。基于此,本公开可以在训练节点存在硬件故障时,基于容器镜像和目标训练快照对目标备用节点进行极速初始化,使目标备用节点快速接替训练节点继续执行模型训练任务,以缩短故障恢复时间,提高模型训练效率。
15、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种基于集群的训练方法,所述集群中包括用于执行模型训练任务的训练节点和多个备用节点,包括:
2.根据权利要求1所述的方法,所述获取所述训练节点中模型训练任务的目标训练快照,包括:
3.根据权利要求2所述的方法,所述方法还包括:
4.根据权利要求2所述的方法,所述集群中包括存储节点,所述获取所述训练节点中所述模型训练任务的至少一个训练快照,包括:
5.根据权利要求2所述的方法,所述训练快照对应有获取时间,所述从至少一个训练快照中,选取所述目标训练快照,包括:
6.根据权利要求1所述的方法,所述备用节点用于执行模型训练任务以外的其他任务,所述从多个备用节点中选取目标备用节点,包括:
7.根据权利要求1所述的方法,所述对所述目标备用节点进行初始化,包括:
8.根据权利要求1所述的方法,所述方法还包括:
9.根据权利要求1或8所述的方法,所述方法还包括:
10.根据权利要求1-8任一项所述的方法,所述方法还包括:
11.一种基于集群的训练装置,所述集群中包括用于执行
12.根据权利要求11所述的装置,其中,所述第一响应模块,用于:
13.根据权利要求12所述的装置,其中,所述装置还包括:
14.根据权利要求12所述的装置,其中,所述集群中包括存储节点,所述第一响应模块,用于:
15.根据权利要求12所述的装置,其中,所述训练快照对应有获取时间,所述第一响应模块,用于:
16.根据权利要求11所述的装置,其中,所述备用节点用于执行模型训练任务以外的其他任务,所述第一响应模块,用于:
17.根据权利要求11所述的装置,其中,所述初始化模块,用于:
18.根据权利要求11所述的装置,其中,所述装置还包括:
19.根据权利要求11或18所述的装置,其中,所述装置还包括:
20.根据权利要求11-18任一项所述的装置,其中,所述装置还包括:
21.一种电子设备,包括:
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。
...【技术特征摘要】
1.一种基于集群的训练方法,所述集群中包括用于执行模型训练任务的训练节点和多个备用节点,包括:
2.根据权利要求1所述的方法,所述获取所述训练节点中模型训练任务的目标训练快照,包括:
3.根据权利要求2所述的方法,所述方法还包括:
4.根据权利要求2所述的方法,所述集群中包括存储节点,所述获取所述训练节点中所述模型训练任务的至少一个训练快照,包括:
5.根据权利要求2所述的方法,所述训练快照对应有获取时间,所述从至少一个训练快照中,选取所述目标训练快照,包括:
6.根据权利要求1所述的方法,所述备用节点用于执行模型训练任务以外的其他任务,所述从多个备用节点中选取目标备用节点,包括:
7.根据权利要求1所述的方法,所述对所述目标备用节点进行初始化,包括:
8.根据权利要求1所述的方法,所述方法还包括:
9.根据权利要求1或8所述的方法,所述方法还包括:
10.根据权利要求1-8任一项所述的方法,所述方法还包括:
11.一种基于集群的训练装置,所述集群中包括用于执行模型训练任务的训练节点和多个备用节点,包括:
12.根据权利要求1...
【专利技术属性】
技术研发人员:于佃海,田戈骁,巩伟宝,王海峰,徐永生,杨嘉彬,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。