System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对高性能集群中高速网络异常的监控方法技术_技高网

一种针对高性能集群中高速网络异常的监控方法技术

技术编号:40495838 阅读:5 留言:0更新日期:2024-02-26 19:24
本发明专利技术涉及分布式计算技术领域,公开了一种针对高性能集群中高速网络异常的监控方法,包括:获取网络连接异常的集群节点的信息;获取第一集群节点所在的并行通信域的信息;根据第一集群节点所在的并行通信域的信息来生成域关系,如果在一个并行通信域内两个集群节点之间存在相互通信的关系,则为这两个集群节点生成域关系;为每个集群节点生成表征特征;将集群节点的表征特征输入异常识别模型中,输出表示第一集群节点的网络异常原因类型的结果;本发明专利技术通过训练模型学习集群节点的网络异常在各层通信域内的发生模式来识别集群节点的网络异常的原因,能够针对性的及时进行响应和调整,稳定了高性能计算集群的服务响应速度。

【技术实现步骤摘要】

本专利技术涉及分布式计算,更具体地说,它涉及一种针对高性能集群中高速网络异常的监控方法


技术介绍

1、高性能计算集群是一种能够将多台计算机用于并行计算的体系结构,节点之间通过跨语言的通讯协议来进行消息传递,随着集群规模的不断扩大以及集群性能的不断增长,网络延迟对于高性能计算集群的影响越来越大;一般的高性能计算集群的节点网络异常的判断是基于日志中的数据包的时延进行判断的,例如公告号为cn115002001b的专利技术公开了一种检测集群网络亚健康的方法、装置、设备及可读介质,通过数据传输的时延和丢包率来节点的网络状态,并对于网络状态异常的节点进行切换;

2、根据一般的方法,只能够判断高性能计算集群的节点是否存在网络异常,而无法解析网络异常的原因,需要运维人员查看日志进行调试分析,分析具体原因需要大量时间,因此为了保证集群的正常运行,只能够通过切换节点的方式来解决节点的网络异常,但是由于不明确节点网络异常的原因,可能会导致切换节点后问题仍然存在,导致频繁的切换节点,影响高性能计算集群的服务响应速度。


技术实现思路

1、本专利技术提供一种针对高性能集群中高速网络异常的监控方法,解决相关技术中无法解析网络异常的原因,只能够通过切换节点的方式来解决节点的网络异常,影响高性能计算集群的服务响应速度的技术问题。

2、本专利技术提供了一种针对高性能集群中高速网络异常的监控方法,包括以下步骤:

3、步骤101,获取网络连接异常的集群节点的信息,定义网络连接异常的集群节点为第一集群节点,第一集群节点之外的集群节点定义为第二集群节点;

4、步骤102,获取第一集群节点所在的并行通信域的信息;

5、步骤103,根据第一集群节点所在的并行通信域的信息来生成域关系,如果在一个并行通信域内两个集群节点之间存在相互通信的关系,则为这两个集群节点生成域关系;

6、步骤104,为每个集群节点生成表征特征;

7、步骤105,将集群节点的表征特征输入异常识别模型中,输出表示第一集群节点的网络异常原因类型的结果。

8、进一步地,对集群节点网络连接异常的定义是网络连接的建立超过设定的第一时间。

9、进一步地,基于集群节点所执行的子任务的信息来进行编码生成该集群节点的表征特征。

10、进一步地,异常识别模型包括:

11、特征融合层,其计算公式如下:

12、;

13、;

14、,;

15、表示第k个并行通信域的第i个集群节点的融合特征,和分别表示第k个并行通信域的第i个和第j个集群节点的表征特征,和分别表示第一权重参数和第二权重参数,表示第一隐藏层的权重向量,表示第k个并行通信域中与第i个集群节点存在边域关系的集群节点的集合,表示激活函数,表示第k个并行通信域的第i个和第j个集群节点的融合权重,和分别表示第k个并行通信域的第i个和第j个集群节点的中间特征,表示以自然常数为底的指数函数,表示向量拼接,t表示转置;

16、跨域融合层,其计算公式如下:

17、;

18、;

19、其中和分别表示第一集群节点在第k个和第h个并行通信域的融合特征,m表示第一集群节点所在的并行通信域的总数,表示第一集群节点的表征特征,表示第一偏置参数,表示第三权重参数,表示第一集群节点的跨域融合特征;

20、输出层,其计算公式如下:

21、;

22、其中,表示第四权重参数,表示第二偏置参数,表示输出向量。

23、进一步地,输出向量的一个分量对应表示一个第一集群节点的网络异常原因类型,输出向量最大的分量表示的第一集群节点的网络异常原因类型作为输出的结果。

24、本专利技术提供了一种针对高性能集群中高速网络异常的监控系统,包括:

25、异常识别模块,其用于识别出现网络连接异常的集群节点;

26、信息获取模块,其用于获取网络连接异常的集群节点的信息,获取第一集群节点所在的并行通信域的信息;

27、域关系生成模块,根据第一集群节点所在的并行通信域的信息来生成域关系;

28、表征模块,其用于为每个集群节点生成表征特征;

29、模式识别模块,其用于将集群节点的表征特征输入异常识别模型中,输出表示第一集群节点的网络异常原因类型的结果。

30、进一步地,第一集群节点的网络异常原因类型包括通信域分配错误和cpu使用率过高。

31、通信域分配错误;这里的通信域分配错误是指:第一集群节点对应的进程进行某一服务,该服务所组织的集群节点分配的并行通信域中并不包含第一集群节点;

32、cpu使用率过高指的是:第一集群节点使用虚拟网络服务,数据包数量过多导致运行虚拟网络服务的cpu使用率过高。

33、进一步地,还包括异常节点控制模块,异常节点控制模块基于第一集群节点的网络异常原因类型来执行对应的控制策略来对集群节点进行控制。

34、进一步地,第一集群节点的网络异常原因类型是cpu使用率过高,则采用如下策略中的一个:将第一集群节点的部分子任务转移到第二集群节点,直至第一集群节点的网络连接异常消失;

35、将第一集群节点的全部子任务转移到cpu处理性能更高的第二集群节点;

36、第一集群节点的网络异常原因类型是通信域分配错误,则采用如下策略:将第一集群节点注册到对应的进程进行的服务所组织的并行通信域中。

37、本专利技术提供了一种存储介质,其存储了非暂时性计算机可读指令,当非暂时性计算机可读指令由计算机执行时,能够执行前述的一种针对高性能集群中高速网络异常的监控方法的步骤。

38、本专利技术的有益效果在于:本专利技术通过训练模型学习集群节点的网络异常在各层通信域内的发生模式来识别集群节点的网络异常的原因,能够针对性的及时进行响应和调整,稳定了高性能计算集群的服务响应速度。

本文档来自技高网...

【技术保护点】

1.一种针对高性能集群中高速网络异常的监控方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对高性能集群中高速网络异常的监控方法,其特征在于,对集群节点网络连接异常的定义是网络连接的建立超过设定的第一时间。

3.根据权利要求1所述的一种针对高性能集群中高速网络异常的监控方法,其特征在于,基于集群节点所执行的子任务的信息来进行编码生成该集群节点的表征特征。

4.根据权利要求1所述的一种针对高性能集群中高速网络异常的监控方法,其特征在于,异常识别模型包括:

5.根据权利要求1所述的一种针对高性能集群中高速网络异常的监控方法,其特征在于,输出向量的一个分量对应表示一个第一集群节点的网络异常原因类型,输出向量最大的分量表示的第一集群节点的网络异常原因类型作为输出的结果。

6.一种针对高性能集群中高速网络异常的监控系统,其特征在于,其用于执行如权利要求1-5任一所述的一种针对高性能集群中高速网络异常的监控方法的步骤,包括:

7.根据权利要求6所述的一种针对高性能集群中高速网络异常的监控系统,其特征在于,第一集群节点的网络异常原因类型包括通信域分配错误和CPU使用率过高;

8.根据权利要求6所述的一种针对高性能集群中高速网络异常的监控系统,其特征在于,还包括异常节点控制模块,异常节点控制模块基于第一集群节点的网络异常原因类型来执行对应的控制策略来对集群节点进行控制。

9.根据权利要求7所述的一种针对高性能集群中高速网络异常的监控系统,其特征在于,第一集群节点的网络异常原因类型是CPU使用率过高,则采用如下策略中的一个:将第一集群节点的部分子任务转移到第二集群节点,直至第一集群节点的网络连接异常消失;

10.一种存储介质,其特征在于,其存储了非暂时性计算机可读指令,当非暂时性计算机可读指令由计算机执行时,能够执行如权利要求1-5任一所述的一种针对高性能集群中高速网络异常的监控方法的步骤。

...

【技术特征摘要】

1.一种针对高性能集群中高速网络异常的监控方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对高性能集群中高速网络异常的监控方法,其特征在于,对集群节点网络连接异常的定义是网络连接的建立超过设定的第一时间。

3.根据权利要求1所述的一种针对高性能集群中高速网络异常的监控方法,其特征在于,基于集群节点所执行的子任务的信息来进行编码生成该集群节点的表征特征。

4.根据权利要求1所述的一种针对高性能集群中高速网络异常的监控方法,其特征在于,异常识别模型包括:

5.根据权利要求1所述的一种针对高性能集群中高速网络异常的监控方法,其特征在于,输出向量的一个分量对应表示一个第一集群节点的网络异常原因类型,输出向量最大的分量表示的第一集群节点的网络异常原因类型作为输出的结果。

6.一种针对高性能集群中高速网络异常的监控系统,其特征在于,其用于执行如权利要求1-5任一所述的一种针对高性能集群中...

【专利技术属性】
技术研发人员:戴煜刘翀康浩鹏张家杰姚胜
申请(专利权)人:合肥先进计算中心运营管理有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1