【技术实现步骤摘要】
本专利技术涉及计算机网络,具体涉及一种基于kubernetes的节点控制方法、系统、设备、介质及程序产品。
技术介绍
1、目前实现大模型弹性分布式训练面临诸多挑战,例如,训练进程之间的发现和协调、成员变更管理以及与现有代码的集成等。大模型的训练依赖于gpu,而kubernetes的apiserver(api服务器)在默认情况下无法及时感知gpu故障导致的节点异常,所以在调度的过程中有可能将实例调度到不可用的节点。同时,现有的各类弹性训练框架无法对底层的gpu设备错误进行感知,导致用户侧也无法及时对现状进行止损。
2、因此,现亟需一种能够基于kubernetes的节点控制方法,感知gpu的故障节点并及时调整训练任务的分配。
技术实现思路
1、有鉴于此,本申请提供了一种基于kubernetes的节点控制方法、系统、设备、介质及程序产品,能够感知gpu的故障节点并及时调整训练任务的分配,该技术方案如下。
2、第一方面,本专利技术提供一种基于kubernetes的节点控制方
...【技术保护点】
1.一种基于Kubernetes的节点控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于Kubernetes的节点控制方法,其特征在于,所述节点的故障类型包括节点暂时性故障、节点永久性故障。
3.根据权利要求2所述的基于Kubernetes的节点控制方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的基于Kubernetes的节点控制方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的基于Kubernetes的节点控制方法,其特征在于,所述故障日志还用于表征所述训练任务是否中断;若所述训练
...【技术特征摘要】
1.一种基于kubernetes的节点控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于kubernetes的节点控制方法,其特征在于,所述节点的故障类型包括节点暂时性故障、节点永久性故障。
3.根据权利要求2所述的基于kubernetes的节点控制方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的基于kubernetes的节点控制方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的基于kubernetes的节点控制方法,其特征在于,所述故障日志还用于表征所述训练任务是否中断;若所述训练任务中断,则通过kubernetes的api服务器删除所述训练任务。
6.一种基于kubernetes的系统,其特征在于,所述系统包括节点问题检...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。