基于Kubernetes的节点控制方法、系统、设备、介质及程序产品技术方案

技术编号:44975399 阅读:20 留言:0更新日期:2025-04-15 16:57
本发明专利技术涉及计算机网络技术领域,公开了一种基于Kubernetes的节点控制方法、系统、设备、介质及程序产品,该节点控制方法包括:在大模型分布式训练过程中,通过Kubernetes的节点问题检测模块获取节点的故障日志信息;该故障日志信息用于表征节点的故障类型;在大模型分布式训练过程中,GPU的可调用节点上分配有对应的训练任务;基于故障日志信息,通过API服务器更新节点的节点状态;节点状态包括节点是否可调用。通过Kubernetes的节点问题检测模块获取GPU的故障日志信息并更新节点进行状态,依据节点状态对训练任务进行重新调度,保证训练任务只会被调度到健康节点,显著提升大模型的训练效率。

【技术实现步骤摘要】

本专利技术涉及计算机网络,具体涉及一种基于kubernetes的节点控制方法、系统、设备、介质及程序产品。


技术介绍

1、目前实现大模型弹性分布式训练面临诸多挑战,例如,训练进程之间的发现和协调、成员变更管理以及与现有代码的集成等。大模型的训练依赖于gpu,而kubernetes的apiserver(api服务器)在默认情况下无法及时感知gpu故障导致的节点异常,所以在调度的过程中有可能将实例调度到不可用的节点。同时,现有的各类弹性训练框架无法对底层的gpu设备错误进行感知,导致用户侧也无法及时对现状进行止损。

2、因此,现亟需一种能够基于kubernetes的节点控制方法,感知gpu的故障节点并及时调整训练任务的分配。


技术实现思路

1、有鉴于此,本申请提供了一种基于kubernetes的节点控制方法、系统、设备、介质及程序产品,能够感知gpu的故障节点并及时调整训练任务的分配,该技术方案如下。

2、第一方面,本专利技术提供一种基于kubernetes的节点控制方法,该方法包括:...

【技术保护点】

1.一种基于Kubernetes的节点控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于Kubernetes的节点控制方法,其特征在于,所述节点的故障类型包括节点暂时性故障、节点永久性故障。

3.根据权利要求2所述的基于Kubernetes的节点控制方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的基于Kubernetes的节点控制方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的基于Kubernetes的节点控制方法,其特征在于,所述故障日志还用于表征所述训练任务是否中断;若所述训练任务中断,则通过Ku...

【技术特征摘要】

1.一种基于kubernetes的节点控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于kubernetes的节点控制方法,其特征在于,所述节点的故障类型包括节点暂时性故障、节点永久性故障。

3.根据权利要求2所述的基于kubernetes的节点控制方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的基于kubernetes的节点控制方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的基于kubernetes的节点控制方法,其特征在于,所述故障日志还用于表征所述训练任务是否中断;若所述训练任务中断,则通过kubernetes的api服务器删除所述训练任务。

6.一种基于kubernetes的系统,其特征在于,所述系统包括节点问题检...

【专利技术属性】
技术研发人员:张妍
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1