一种故障定位方法以及相关设备技术

技术编号:43572004 阅读:15 留言:0更新日期:2024-12-06 17:40
本申请提供一种故障定位方法。由探测控制器执行,该方法包括:向计算集群中的第一节点发送探测配置,探测配置包括由第一节点发起探测的第二节点的信息,计算集群中包括多个计算节点以及用于实现多个计算节点之间内存访问的总线交换网络,然后获取总线网络中第一节点到第二节点的路径上的至少一个交换节点接收和发送的携带探测标记的报文的数量,携带探测标记的报文为第一节点根据探测配置发出,接着根据至少一个交换节点接收的和发送的携带探测标记的报文的数量确定总线交换网络中的故障位置。即使总线交换网络使用逐包负载分担方式,导致转发路径不确定、不可预知、不可回溯,也能够定位出包位置,进而实现高效的故障定位。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种故障定位方法、探测控制器、计算集群以及计算机可读存储介质、计算机程序产品。


技术介绍

1、随着高性能计算(high performance computing,hpc)或人工智能(artificialintelligence,ai)技术的兴起,算力需求不断增长。随着芯片逐渐达到摩尔定律极限,单独一个芯片的计算能力(即算力)难以继续垂直扩展(scale up),算力提升通常需要采用水平扩展(scale out)路线。例如,包括中央处理器(central processing unit,cpu)/神经网络处理器(neural processing unit,npu)的计算节点可以通过总线交换网络连接,形成计算集群。

2、计算集群中的计算节点可以通过总线交换网络实现计算节点间的内存互访,换言之,内存访问由节点内访问发展至即跨节点访问。总线交换网络包括交换节点,每个交换节点可以包括至少一个交换芯片,一个计算节点(如计算节点1)的cpu访问另一个计算节点(如计算节点2)的npu的内存数据时,计算节点1的cpu可以发送数据访问本文档来自技高网...

【技术保护点】

1.一种故障定位方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:

3.根据权利要求1所述的方法,其特征在于,所述总线交换网络包括第一交换节点和第二交换节点,所述第一交换节点的出接口与所述第二交换节点的入接口连接,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:

4.根据权利要求1至3任一项所述的方...

【技术特征摘要】

1.一种故障定位方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:

3.根据权利要求1所述的方法,其特征在于,所述总线交换网络包括第一交换节点和第二交换节点,所述第一交换节点的出接口与所述第二交换节点的入接口连接,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述第一节点为所述多个计算节点中的任意计算节点,所述探测配置还包括探测模式,当所述探测模式为全局探测时,所述第一节点的业务报文携带所述探测标记,所述携带探测标记的报文包括内存探测报文以及携带所述探测标记的业务报文。

5.根据权利要求1至4任一项所述的方法,其特征在于,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:

6.根据权利要求5所述的方法,其特征在于,所述探测配置还包括探测预期结果,所述故障记录为所述第一节点或所述第二节点检测到所述探测预期结果和探测实际结果不一致时上报。

7.根据权利要求1至6任一项所述的方法,其特征在于,所述第一节点向所述第二节点发送的携带探测标记的报文的数量大于或等于所述第一节点至所述第二节点的路径的数量。

8.根据权利要求1至7任一项所述的方法,其特征在于,所述探测控制器独立于所述计算集群。

9.根据权利要求1至7任一项所述的方法,其特征在于,所述探测控制器为所述计算集群中的一个节点,或者所述探测控制器部署于所述计算集群中的一个节点。

10.一种故障定位方法,其特征在于,应用于计算集群,所述计算集群中包括多个计算节点以及用于实现所述多个计算节点之间内存访问的总线交换网络,所述方法包括:

11.根据权利要求10所述的方法,其特征在于,所述第一节点包括探测代理装置,所述交换节点包括统计代理装置;

12.根据权利要求10或11所述的方法,其特征在于,所述第一节点为所述多个计算节点中的任意计算节点,所述探测配置还包括探测模式;

...

【专利技术属性】
技术研发人员:曹水吴佳林杨宏杰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1