【技术实现步骤摘要】
本公开涉及分布式存储,尤其涉及一种分布式训练方法、装置和存储介质。
技术介绍
1、人工智能(artificial intelligence,ai)大模型通常在分布式环境下进行训练,当前的分布式训练方案为了加速数据读取速度,通常都会提供快速存储。然而,在训练过程中每个节点上的硬盘都有可能发生故障,从而导致节点本地存储不可用,训练中断。同时,由于ai大模型的训练过程通常比较长,在此过程中硬盘发生故障的概率也会增大,增加了训练中断的风险。如果在中断之后重新进行训练,势必会浪费大量的时间和处理器资源,并降低模型的训练效率。
技术实现思路
1、有鉴于此,本公开提出了一种分布式训练方法、装置和存储介质。
2、根据本公开的一方面,提供了一种分布式训练方法。该方法包括:
3、获取一个或多个节点的硬盘信息,基于硬盘信息确定一个或多个节点的硬盘状态;
4、响应于存在硬盘状态满足预设条件的第一节点,针对第一节点上的训练任务生成检查点文件,检查点文件中包括与训练任务关联的状态信
5本文档来自技高网...
【技术保护点】
1.一种分布式训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述停止执行所述第一节点上的训练任务,使第二节点基于所述检查点文件继续执行所述训练任务,包括:
4.根据权利要求1所述的方法,其特征在于,所述预设条件包括所述硬盘状态为故障状态或潜在故障状态,所述获取一个或多个节点的硬盘信息,基于所述硬盘信息确定所述一个或多个节点的硬盘状态,包括:
5.根据权利要求1所述的方法,其特征在于,所述硬盘信息包括自我检测、分析与报告技术信息和
...【技术特征摘要】
1.一种分布式训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述停止执行所述第一节点上的训练任务,使第二节点基于所述检查点文件继续执行所述训练任务,包括:
4.根据权利要求1所述的方法,其特征在于,所述预设条件包括所述硬盘状态为故障状态或潜在故障状态,所述获取一个或多个节点的硬盘信息,基于所述硬盘信息确定所述一个或多个节点的硬盘状态,包括:
5.根据权利要求1所述的方法,其特征在于,所述硬盘信息包括自我检测、分析与报告技术信息和输入输出统计信息。
6.根据权利要求1所述的方法...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:摩尔线程智能科技北京有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。