System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 异常检测方法和装置、电子设备、分布式计算系统及存储介质制造方法及图纸_技高网

异常检测方法和装置、电子设备、分布式计算系统及存储介质制造方法及图纸

技术编号:41295362 阅读:5 留言:0更新日期:2024-05-13 14:44
本申请公开一种用于分布式计算系统的异常检测方法,包括:向分布式计算系统的至少其中一部分计算节点的至少其中一个计算单元发起检测通信连接,检测通信连接经被检测的计算单元所连接的第一交换机通信链路传输且不经过被检测计算单元所在计算节点的CPU;从被检测计算单元中的每一个接收检测通信连接的返回结果;通过给定的检测,分析返回结果以在被检测计算单元中确定异常的计算单元。本申请还涉及一种用于分布式计算系统的异常检测装置、电子设备、分布式计算系统和存储介质。本申请的方案能够有效解决当前因难以定位大规模分布式计算系统中非中央处理器的计算单元及关联的节点内交换机及硬件设备的异常拖累神经网络的分布式训练的问题。

【技术实现步骤摘要】

本申请涉及分布式计算领域,由其涉及用于分布式计算系统的异常检测方法和装置、电子设备、分布式计算系统及存储介质


技术介绍

1、在人工智能领域,由于对高性能计算的迫切需求,常常采用gpu等非cpu处理单元以优化训练和推断过程。这些单元专为并行处理设计,能有效处理复杂运算,相比cpu显著提升效率。

2、随着人工智能技术的发展,特别是随着大语言模型(llm)的蓬勃发展,神经网络模型规模越来越大,进而推动了分布式训练方法的广泛采用。在这种分布式训练环境中,相当部分的运算和相关的通信、内存访问活动的主要执行主体是gpu,而非cpu,其中涉及到密集的gpu间以及gpu与其他异构组件间的通信。

3、这样的分布式计算系统往往包含多个计算节点,每个计算节点可能包含多个用于执行分布式训练的非cpu的计算单元,如gpu。当这样的分布式计算网络中有计算单元、如gpu及其连接部件存在异常时,难以准确定位这样的异常计算单元。如不能尽快确定存在异常计算单元,在这些计算单元中存在的异常、例如故障、瓶颈(bottleneck)、降级(downgrade)等问题将会大幅拖累整个分布式计算系统的训练效率。

4、由于分布式训练方兴未艾,当前业界对于这一问题的认识不足,更缺乏相应的解决方案。

5、此
技术介绍
的说明旨在帮助理解相关领域内的相关技术,并不代表承认
技术介绍
内容属于现有技术。


技术实现思路

1、本身申请实施例旨在提供一种用于分布式计算系统的异常检测方法和装置、电子设备、分布式计算系统及存储介质,其能够减缓或解决上述提到的至少一个技术问题。

2、在第一方面,提供一种用于分布式计算系统的异常检测方法。所述分布式计算系统包括多个计算节点,每个计算节点包括cpu、第一交换机和一个或多个计算单元,所述计算单元为非cpu的处理单元,其中所述第一交换机上行连接上一级交换机或cpu接口,所述第一交换机下行连接多个硬件设备,所述第一交换机下行连接的所述多个硬件设备包括至少一个所述计算单元。

3、在此,所述异常检测方法包括:

4、向至少其中一部分所述计算节点的至少其中一个所述计算单元发起检测通信连接,所述检测通信连接经被检测的计算单元所连接的第一交换机通信链路传输且不经过被检测计算单元所在计算节点的cpu;

5、从被检测计算单元中的每一个接收所述检测通信连接的返回结果;

6、通过给定的检测,分析所述返回结果以在所述被检测计算单元中确定异常的计算单元。

7、在一些实施例中,所述检测通信连接不经过所述被检测的计算单元所连接的第一交换机的上一级交换机。

8、在一些实施例中,所述给定的检测包括正确性检测和传输稳定性检测。

9、在一些实施例中,所述传输稳定性检测包括带宽检测和/或延迟检测。

10、在一些实施例中,所述通过给定的检测,分析所述返回结果以在所述被检测计算单元中确定异常的计算单元,包括:

11、执行多项正确性检测,将未通过所述正确性检测中的一项或多项的计算单元、未通过所述正确性检测中的一项或多项的第一交换机、第一交换机的通信链路所连接的计算单元或者与未通过所述正确性检测中的一项或多项的硬件设备连接到同一第一交换机的计算单元确定为异常的计算单元;

12、在所述带宽检测时,确定在所述检测通信中所有被检测的计算单元的连接带宽,基于给定的第一分位数阈值确定为分位数带宽,并将小于所述分位数带宽或者小于阈值带宽的计算单元确定为异常的计算单元,所述阈值带宽为比所述分位数带宽小了第一给定差值;和/或

13、在所述延迟检测时,确定在所述检测通信中所有被检测的计算单元的连接延迟,基于给定的第二分位数阈值确定为分位数延迟,并将大于所述分位数延迟或者大于阈值延迟的计算单元确定为异常的计算单元,所述阈值延迟为比所述分位数延迟慢了第二给定差值。

14、在一些实施例中,所述正确性检测包括被检测计算单元的内存分配正确性检测、内存释放正确性检测、虚拟内存分配正确性检测和/或虚拟内存释放正确性检测。

15、在一些实施例中,所述正确性检测选自以下检测中的至少一项:

16、基础子线程固定缓冲区内存分配检测,

17、基础子线程固定缓冲区虚拟内存分配检测,

18、基础内存分配检测,

19、基础小缓冲区映射检测,

20、基础非对齐映射检测,

21、基础虚拟内存分配检测,

22、基础带令牌测试检测,

23、数据验证内存分配检测,

24、数据验证虚拟内存分配检测,

25、释放后访问内存分配失效检测,

26、释放后访问虚拟内存分配失效检测,

27、gdr关闭后访问内存分配失效检测,

28、gdr关闭后访问虚拟内存分配失效检测,

29、释放后访问分支操作fork内存分配失效检测,

30、释放后访问fork虚拟内存分配失效检测,

31、gdr映射后fork内存分配失效检测,

32、gdr映射后fork虚拟内存分配失效检测,

33、子进程gdr映射父进程fork内存分配失效检测,

34、子进程gdr映射父进程fork虚拟内存分配失效检测,

35、子进程gdr固定父进程的带令牌内存失效检测,

36、fork映射并释放后内存分配失效检测,

37、fork映射并释放后虚拟内存分配失效检测,

38、双重映射内存分配失效检测,

39、双重映射虚拟内存分配失效检测,

40、unix套接字共享文件描述符gdr映射内存分配失效检测,

41、unix套接字共享文件描述符gdr映射虚拟内存分配失效检测,

42、unix套接字共享文件描述符gdr固定缓冲区内存分配失效检测,

43、unix套接字共享文件描述符gdr固定缓冲区虚拟内存分配失效检测。

44、在一些实施例中,所述异常检测方法还包括:

45、断开或屏蔽被确定为异常的计算单元、与所述被确定为异常的计算单元连接的第一交换机或与被确定为异常的计算单元连接同一第一交换机的其他硬件设备。

46、在一些实施例中,所述异常检测方法包括:新接入多个所述计算节点,每个新接入的所述计算节点包括一个或多个所述计算单元;所述向至少其中一部分所述计算节点的至少其中一个所述计算单元发起检测通信连接,包括:向新接入的所述计算节点的计算单元发起所述检测通信连接;所述异常检测方法还包括:阻止被确定为异常的计算单元接入。

47、在一些实施例中,所述第一交换机和所述上一级交换机为pcie交换机(pcieswitch)。

48、在第二方面,提供一种用于分布式计算系统的异常检测装置。所述分布式计算系统包括多个计算节点,每个本文档来自技高网...

【技术保护点】

1.一种用于分布式计算系统的异常检测方法,其特征在于,所述分布式计算系统包括多个计算节点,每个计算节点包括CPU、第一交换机和一个或多个计算单元,所述计算单元为非CPU的处理单元,其中所述第一交换机上行连接上一级交换机或CPU接口,所述第一交换机下行连接多个硬件设备,所述第一交换机下行连接的所述多个硬件设备包括至少一个所述计算单元;

2.根据权利要求1所述的异常检测方法,其特征在于,所述检测通信连接不经过所述被检测的计算单元所连接的第一交换机的上一级交换机。

3.根据权利要求1所述的异常检测方法,其特征在于,所述给定的检测包括正确性检测和传输稳定性检测。

4.根据权利要求3所述的异常检测方法,其特征在于,所述传输稳定性检测包括带宽检测和/或延迟检测。

5.根据权利要求4所述的异常检测方法,其特征在于,所述通过给定的检测,分析所述返回结果以在所述被检测计算单元中确定异常的计算单元,包括:

6.根据权利要求3所述的异常检测方法,其特征在于,所述正确性检测包括被检测计算单元的内存分配正确性检测、内存释放正确性检测、虚拟内存分配正确性检测和/或虚拟内存释放正确性检测。

7.根据权利要求6所述的异常检测方法,其特征在于,所述正确性检测选自以下检测中的至少一项:

8.根据权利要求1至7中任一项所述的异常检测方法,其特征在于,所述异常检测方法还包括:

9.根据权利要求1所述的异常检测方法,其特征在于,所述方法包括:新接入多个所述计算节点,每个新接入的所述计算节点包括一个或多个所述计算单元;

10.根据权利要求1所述的异常检测方法,其特征在于,所述第一交换机和所述上一级交换机为PCIe交换机(PCIe Switch)。

11.一种用于分布式计算系统的异常检测装置,其特征在于,所述分布式计算系统包括多个计算节点,每个计算节点包括CPU、第一交换机和一个或多个计算单元,所述计算单元为非CPU的处理单元,其中所述第一交换机上行连接上一级交换机或CPU接口,所述第一交换机下行连接多个硬件设备,所述第一交换机下行连接的所述多个硬件设备包括至少一个所述计算单元;

12.一种电子设备,其特征在于,包括处理器和存储有计算机程序的存储器,所述处理器被配置为在运行所述计算机程序时实现如权利要求1至10中任一项所述的方法。

13.一种分布式计算系统,其特征在于,包括多个计算节点,每个计算节点包括CPU、第一交换机和一个或多个计算单元,所述计算单元为非CPU的处理单元,其中所述第一交换机上行连接上一级交换机或CPU接口,所述第一交换机下行连接多个硬件设备,所述第一交换机下行连接的所述多个硬件设备包括至少一个所述计算单元;

14.根据权利要求13所述的分布式计算系统,其特征在于,所述多个计算节点中的一个或多个计算节点作为所述一个或多个电子设备。

15.根据权利要求13所述的分布式计算系统,其特征在于,连接所述第一交换机的所述多个硬件设备还包括网络接口卡NIC,且所述计算单元包括GPU。

16.根据权利要求15所述的分布式计算系统,其特征在于,至少部分所述计算节点包括两级交换机,第一级交换机包括所述第一交换机,第二级交换机包括第一交换机上行连接的第二交换机,其中所述第一交换机具有两个下行端口,至少部分第一交换机的两个下行端口分别连接NIC和GPU。

17.根据权利要求15所述的分布式计算系统,其特征在于,至少部分所述计算节点包括一级交换机,第一交换机上行连接根复合体RC,其中所述第一交换机具有两个下行端口,至少部分第一交换机的两个下行端口分别连接NIC和GPU。

18.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被配置为被运行时实现如权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种用于分布式计算系统的异常检测方法,其特征在于,所述分布式计算系统包括多个计算节点,每个计算节点包括cpu、第一交换机和一个或多个计算单元,所述计算单元为非cpu的处理单元,其中所述第一交换机上行连接上一级交换机或cpu接口,所述第一交换机下行连接多个硬件设备,所述第一交换机下行连接的所述多个硬件设备包括至少一个所述计算单元;

2.根据权利要求1所述的异常检测方法,其特征在于,所述检测通信连接不经过所述被检测的计算单元所连接的第一交换机的上一级交换机。

3.根据权利要求1所述的异常检测方法,其特征在于,所述给定的检测包括正确性检测和传输稳定性检测。

4.根据权利要求3所述的异常检测方法,其特征在于,所述传输稳定性检测包括带宽检测和/或延迟检测。

5.根据权利要求4所述的异常检测方法,其特征在于,所述通过给定的检测,分析所述返回结果以在所述被检测计算单元中确定异常的计算单元,包括:

6.根据权利要求3所述的异常检测方法,其特征在于,所述正确性检测包括被检测计算单元的内存分配正确性检测、内存释放正确性检测、虚拟内存分配正确性检测和/或虚拟内存释放正确性检测。

7.根据权利要求6所述的异常检测方法,其特征在于,所述正确性检测选自以下检测中的至少一项:

8.根据权利要求1至7中任一项所述的异常检测方法,其特征在于,所述异常检测方法还包括:

9.根据权利要求1所述的异常检测方法,其特征在于,所述方法包括:新接入多个所述计算节点,每个新接入的所述计算节点包括一个或多个所述计算单元;

10.根据权利要求1所述的异常检测方法,其特征在于,所述第一交换机和所述上一级交换机为pcie交换机(pcie switch)。

11.一种用于分布式计算系统的异常检测装置,其特征在于,所述分布式计算系统包括多个计算节点,每个计算节点包括...

【专利技术属性】
技术研发人员:星龙侯心主
申请(专利权)人:北京稀宇极智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1