System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多节点系统异常根因定位方法、装置、设备及存储介质制造方法及图纸_技高网

多节点系统异常根因定位方法、装置、设备及存储介质制造方法及图纸

技术编号:40610123 阅读:3 留言:0更新日期:2024-03-12 22:17
本申请公开了一种多节点系统异常根因定位方法、装置、设备及存储介质,属于计算机技术领域。该方法包括:在检测到多节点系统存在异常节点时,通过时空图神经网络,对多节点系统中多个节点的性能数据和第一网络拓扑图进行处理,得到多个节点的注意力权重矩阵,从而对第一网络拓扑图进行调整,保留性能数据表现相近的节点之间的连边,还原多节点系统的真实网络拓扑,得到第二网络拓扑图,实现异常根因定位。其中,由于根据多个节点的性能数据还原了多节点系统的真实网络拓扑,而性能数据表现相近的节点通常在一条通信连接路径上,因此能够根据异常节点和该第二网络拓扑图快速定位到异常根因,提高异常根因定位结果的准确度。

【技术实现步骤摘要】

本申请涉及计算机,特别涉及一种多节点系统异常根因定位方法、装置、设备及存储介质


技术介绍

1、随着计算机技术的不断发展,计算机之间能够互联互通,构成多节点系统来满足各种各样的业务需求。以多节点系统为数据中心(data center)为例,目前数据中心的设备类型越来越多,规模也越来越大,一个数据中心通常包括上万甚至上百万个节点,这些节点之间通过有线或无线方式通信连接,形成一个复杂的网络拓扑。当数据中心中某个节点发生异常时,往往会导致一连串的节点都发生异常,因此准确地进行异常根因定位尤为重要。

2、相关技术中,继续以数据中心为例,当检测到数据中心的某个节点发生异常时,通过数据中心的网络拓扑,查找该节点的关联节点,检查这些关联节点的日志信息是否出现异常,若出现异常,则进一步查找这些关联节点的关联节点,直至找到发生异常的根因节点,实现数据中心异常根因定位。

3、然而,由于数据中心的网络拓扑较为复杂,有些节点之间的连接还会动态变化,因此难以获取到真实的网络拓扑,导致异常根因定位的准确度不高。


技术实现思路

1、本申请实施例提供了一种多节点系统异常根因定位方法、装置、设备及存储介质,能够提高异常根因定位结果的准确度。该技术方案如下:

2、第一方面,提供了一种多节点系统异常根因定位方法,该方法包括:

3、在检测到多节点系统存在异常节点的情况下,基于时空图神经网络,对该多节点系统中多个节点的性能数据和第一网络拓扑图进行处理,得到该多个节点的注意力权重矩阵,该时空图神经网络基于该多个节点的历史性能数据和历史网络拓扑图训练得到,该第一网络拓扑图包括该多个节点和节点之间的连边,该节点之间的连边指示节点之间具有通信连接关系,该注意力权重矩阵指示任意两个该节点的性能数据之间的相似程度;

4、基于该注意力权重矩阵,对该第一网络拓扑图进行调整,得到该多个节点的第二网络拓扑图,该第二网络拓扑图中节点之间的连边指示节点之间具有通信连接关系且节点的性能数据之间的相似程度符合目标条件;

5、基于该第二网络拓扑图和该异常节点,确定该多节点系统的异常根因定位结果。

6、其中,性能数据可以是时延、每秒输入输出操作(input/output operations persecond,iops)、带宽、网络流量以及端口访问量等等中的至少一项,对此不作限定。在上述方法中,在检测到多节点系统存在异常节点时,通过时空图神经网络,对多节点系统中多个节点的性能数据和第一网络拓扑图进行处理,得到多个节点的注意力权重矩阵,从而对第一网络拓扑图进行调整,保留性能数据表现相近的节点之间的连边,还原多节点系统的真实网络拓扑,得到第二网络拓扑图,实现异常根因定位。其中,由于根据多个节点的性能数据还原了多节点系统的真实网络拓扑,且性能数据表现相近的节点通常在一条通信连接路径上,因此能够根据异常节点和该第二网络拓扑图中快速定位到异常根因,提高异常根因定位结果的准确度。尤其,在多节点系统为数据中心的情况下,由于数据中心的节点数量较为庞大,其真实网络拓扑往往难以获取,通过上述方法能够基于数据中心中海量节点的性能数据快速还原数据中心的真实网络拓扑,从而实现异常根因的快速定位,不仅提高了数据中心异常根因定位的效率,还提高了异常根因定位结果的准确度。

7、在一些实施例中,该基于该注意力权重矩阵,对该第一网络拓扑图进行调整,得到该多个节点的第二网络拓扑图,包括:

8、基于该注意力权重矩阵的目标行中权重大小排在前目标数量位的权重,确定目标节点的目标数量个关联节点,该目标行是指该注意力权重矩阵中的任一行,该目标行中的权重用于指示该目标节点与其他节点的性能数据之间的相似程度;

9、删除该目标节点与其他节点中除该目标数量个关联节点以外的节点之间的连边。

10、应理解,由于注意力权重矩阵为对称矩阵,因此也可以基于“列”来对第一网络拓扑图进行调整,过程同理,在此不再赘述。通过上述方法,由于上述注意力权重矩阵中的权重能够指示节点的性能数据之间的相似程度,因此权重越大,表明两个节点的性能数据之间的相似程度越大,相应地,这两个节点越有可能在多节点系统中属于同一条通信连接路径,通过上述调整方式,保留了性能数据表现相近的节点之间的连边,删除了性能数据表现相差较远的节点之间的连边,从而得到了多节点系统的真实网络拓扑,为后续实现异常根因定位提供了技术支撑。

11、在一些实施例中,该基于该第二网络拓扑图和该异常节点,确定该多节点系统的异常根因定位结果,包括:

12、基于该异常节点在该第二网络拓扑图中所在的连通分量,对该连通分量中的节点进行拓扑排序,得到拓扑排序结果,该拓扑排序结果指示该连通分量中的节点在该多节点系统的通信连接路径;

13、基于该拓扑排序结果,确定该异常根因定位结果。

14、其中,该拓扑排序结果中节点的排列顺序也就是这些节点在多节点系统中的通信连接顺序,通过上述方法,正因为性能数据相近的节点通常在一条通信连接路径上,因此能够根据异常节点所在的连通分量快速定位到异常根因,提高异常根因定位结果的准确度。

15、在一些实施例中,该基于该异常节点在该第二网络拓扑图中所在的连通分量,对该连通分量中的节点进行拓扑排序,得到拓扑排序结果,包括:

16、以该连通分量中入度为零的节点为起点,基于该连通分量中节点之间的连边方向,遍历该连通分量中的节点,得到该拓扑排序结果。

17、在一些实施例中,该基于该拓扑排序结果,确定该异常根因定位结果,包括下述至少一项:

18、将该拓扑排序结果中排在首位的节点确定为根因节点,得到该异常根因定位结果。通过该拓扑排序结果,直接定位到根因节点,提高了根因定位效率。

19、将该拓扑排序结果中节点的排列顺序确定为根因路径,得到该异常根因定位结果。由于异常节点的根因节点并不一定是该异常节点所在的通信连接路径上排在最前面的节点,因此通过定位到根因路径,能够提供更多信息,以便相关人员进行异常排查,提高根因定位的准确度。

20、在一些实施例中,该基于该第二网络拓扑图和该异常节点,确定该多节点系统的异常根因定位结果,包括:

21、基于该多个节点的节点类型,对该第二网络拓扑图进行调整,以使节点之间的通信连接关系符合该多节点系统的运行要求,得到该多个节点的第三网络拓扑图;

22、基于该异常节点在该第三网络拓扑图中所在的连通分量,确定该多节点系统的异常根因定位结果。

23、通过对第二网络拓扑图进行进一步裁剪,以得到更符合真实情况的第三网络拓扑图,能够进一步提高异常根因定位结果的准确度。

24、在一些实施例中,该方法还包括:

25、获取该多个节点的初始网络拓扑图,该初始网络拓扑图中任意两个该节点之间相连;

26、基于该多个节点的节点类型,对该初始网络拓扑图进行调整,以使节点之间的通信连接关系符合该本文档来自技高网...

【技术保护点】

1.一种多节点系统异常根因定位方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述注意力权重矩阵,对所述第一网络拓扑图进行调整,得到所述多个节点的第二网络拓扑图,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第二网络拓扑图和所述异常节点,确定所述多节点系统的异常根因定位结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述异常节点在所述第二网络拓扑图中所在的连通分量,对所述连通分量中的节点进行拓扑排序,得到拓扑排序结果,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述拓扑排序结果,确定所述异常根因定位结果,包括下述至少一项:

6.根据权利要求1或2所述的方法,其特征在于,所述基于所述第二网络拓扑图和所述异常节点,确定所述多节点系统的异常根因定位结果,包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1至8中任一项所述的方法,其特征在于,所述基于时空图神经网络,对所述多节点系统中多个节点的性能数据和第一网络拓扑图进行处理,得到所述多个节点的注意力权重矩阵,包括:

10.一种多节点系统异常根因定位装置,其特征在于,所述装置包括:

11.根据权利要求10所述的装置,其特征在于,所述调整模块,用于:

12.根据权利要求10或11所述的装置,其特征在于,所述确定模块,包括:

13.根据权利要求12所述的装置,其特征在于,所述排序单元,用于:

14.根据权利要求12所述的装置,其特征在于,所述确定单元,用于下述至少一项:

15.根据权利要求11或12所述的装置,其特征在于,所述确定模块,包括:

16.根据权利要求10至15中任一项所述的装置,其特征在于,所述装置还包括获取模块,用于:

17.根据权利要求10至16中任一项所述的装置,其特征在于,所述装置还包括配置模块,用于:

18.根据权利要求10至17中任一项所述的装置,其特征在于,所述处理模块,用于:

19.一种计算设备,其特征在于,所述计算设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行如权利要求1至权利要求9中任一项所述的多节点系统异常根因定位方法。

20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储至少一段程序代码,所述至少一段程序代码用于执行如权利要求1至权利要求9中任一项所述的多节点系统异常根因定位方法。

21.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算设备上运行时,使得所述计算设备执行如权利要求1至权利要求9中任一项所述的多节点系统异常根因定位方法。

...

【技术特征摘要】

1.一种多节点系统异常根因定位方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述注意力权重矩阵,对所述第一网络拓扑图进行调整,得到所述多个节点的第二网络拓扑图,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第二网络拓扑图和所述异常节点,确定所述多节点系统的异常根因定位结果,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述异常节点在所述第二网络拓扑图中所在的连通分量,对所述连通分量中的节点进行拓扑排序,得到拓扑排序结果,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述拓扑排序结果,确定所述异常根因定位结果,包括下述至少一项:

6.根据权利要求1或2所述的方法,其特征在于,所述基于所述第二网络拓扑图和所述异常节点,确定所述多节点系统的异常根因定位结果,包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:

8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1至8中任一项所述的方法,其特征在于,所述基于时空图神经网络,对所述多节点系统中多个节点的性能数据和第一网络拓扑图进行处理,得到所述多个节点的注意力权重矩阵,包括:

10.一种多节点系统异常根因定位装置,其特征在于,所述装置包括:

11.根据权利要求10所...

【专利技术属性】
技术研发人员:龙坤张小兵
申请(专利权)人:成都华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1