【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种故障定位方法、探测控制器、计算集群以及计算机可读存储介质、计算机程序产品。
技术介绍
1、随着高性能计算(high performance computing,hpc)或人工智能(artificialintelligence,ai)技术的兴起,算力需求不断增长。随着芯片逐渐达到摩尔定律极限,单独一个芯片的计算能力(即算力)难以继续垂直扩展(scale up),算力提升通常需要采用水平扩展(scale out)路线。例如,包括中央处理器(central processing unit,cpu)/神经网络处理器(neural processing unit,npu)的计算节点可以通过总线交换网络连接,形成计算集群。
2、计算集群中的计算节点可以通过总线交换网络实现计算节点间的内存互访,换言之,内存访问由节点内访问发展至即跨节点访问。总线交换网络包括交换节点,每个交换节点可以包括至少一个交换芯片,一个计算节点(如计算节点1)的cpu访问另一个计算节点(如计算节点2)的npu的内存数据时,计算节点1的c
...【技术保护点】
1.一种故障定位方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:
3.根据权利要求1所述的方法,其特征在于,所述总线交换网络包括第一交换节点和第二交换节点,所述第一交换节点的出接口与所述第二交换节点的入接口连接,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:
4.根据权利要求
...【技术特征摘要】
1.一种故障定位方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:
3.根据权利要求1所述的方法,其特征在于,所述总线交换网络包括第一交换节点和第二交换节点,所述第一交换节点的出接口与所述第二交换节点的入接口连接,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:
4.根据权利要求1至3任一项所述的方法,其特征在于,所述第一节点为所述多个计算节点中的任意计算节点,所述探测配置还包括探测模式,当所述探测模式为全局探测时,所述第一节点的业务报文携带所述探测标记,所述携带探测标记的报文包括内存探测报文以及携带所述探测标记的业务报文。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述探测控制器根据所述至少一个交换节点接收的携带探测标记的报文的数量和发送的携带探测标记的报文的数量确定所述总线交换网络中的故障位置,包括:
6.根据权利要求5所述的方法,其特征在于,所述探测配置还包括探测预期结果,所述故障记录为所述第一节点或所述第二节点检测到所述探测预期结果和探测实际结果不一致时上报。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述第一节点向所述第二节点发送的携带探测标记的报文的数量大于或等于所述第一节点至所述第二节点的路径的数量。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述探测控制器独立于所述计算集群。
9.根据权利要求1至7任一项所述的方法,其特征在于,所述探测控制器为所述计算集群中的一个节点,或者所述探测控制器部署于所述计算集群中的一个节点。
10.一种故障定位方法,其特征在于,应用于计算集群,所述计算集群中包括多个计算节点以及用于实现所述多个计算节点之间内存访问的总线交换网络,所述方法包括:
11.根据权利要求10所述的方法,其特征在于,所述第一节点包括探测代理装置,所述交换节点包括统计代理装置;
12.根据权利要求10或11所述的方法,其特征在于,所述第一节点为所述多个计算节点中的任意计算节点,所述探测配置还包括探测模式;
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。