【技术实现步骤摘要】
本申请属于人工智能,具体涉及一种链路故障检测方法、装置、控制设备及可读存储介质。
技术介绍
1、相关技术中,用于大模型训练等的图形处理器(graphics processing unit,gpu)集群的通信链路故障分析方法,主要基于交换机端口流量、中央处理器(centralprocessing unit,cpu)资源利用率和gpu资源利用率等监控指标,分析判断相应通信链路是否存在故障。但是如果出现gpu集群闪断的情况,如出现微秒、毫秒或秒级的网络中断情况,这种故障分析方法难以及时检测出链路故障。
技术实现思路
1、本申请实施例的目的是提供一种链路故障检测方法、装置、控制设备及可读存储介质,以解决相关技术中难以及时检测出因gpu集群闪断而造成的链路故障的问题。
2、为了解决上述技术问题,本申请是这样实现的:
3、第一方面,提供了一种链路故障检测方法,应用于控制设备,包括:
4、确定m条通信链路中的每条通信链路相关的gpu卡的总数量,以及所述每条通信链路相关
...【技术保护点】
1.一种链路故障检测方法,应用于控制设备,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述总数量和所述每条通信链路相关的第一GPU卡的数量,估算所述每条通信链路处于正常状态的第一概率,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述每条通信链路处于正常状态的第一概率,分析得到所述m条通信链路相关的所有GPU卡连接的链路处于正常状态的概率的平均值,包括:
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述平均值以及所述每条通信链路处于正常状态的第一概率,检测所述每条通信链路是否存在
...【技术特征摘要】
1.一种链路故障检测方法,应用于控制设备,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述总数量和所述每条通信链路相关的第一gpu卡的数量,估算所述每条通信链路处于正常状态的第一概率,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述每条通信链路处于正常状态的第一概率,分析得到所述m条通信链路相关的所有gpu卡连接的链路处于正常状态的概率的平均值,包括:
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述平均值以及所述每条通信链路处于正常状态的第一概率,检测所述每条通信链路是否存在故障,包括:
5.根据权利要求1所述的方法,其特征在于,所述确定m条通信链路中的每条通信链路连接的图形处理器gpu卡的总...
【专利技术属性】
技术研发人员:梁双春,
申请(专利权)人:中国移动通信有限公司研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。