System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机通信,具体而言,涉及一种集群的心跳管理方法、系统、设备及介质。
技术介绍
1、在集群中包含有多个节点,每个节点独立工作并通过光纤通信。在受到外部干扰等因素的作用下,两个节点之间的通信可能出现断连的情况,从而影响到整个集群系统的运行。通常,可以人为的对其进行复位,但是,人为的复位会导致任务运行的中断,并且不能只恢复部分节点通信而不影响其他节点。因此,在节点之间的通信过程中,如何检测节点之间的通信连接情况,以及在出现通信异常的情况下应该如何正确处理,以使节点之间的通信异常尽可能小的影响到整个集群的稳定运行也就成为了亟需解决的技术问题。
技术实现思路
1、本申请的目的在于提供一种集群的心跳管理方法、系统、设备及介质,其能够有效的检测节点之间的通信情况,并在对异常节点进行处理时尽可能小的影响到整个集群的正常稳定运行。
2、本申请是这样实现的:
3、第一方面,本申请提供一种集群的心跳管理方法,包括以下步骤:
4、节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接。互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;上述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。基于上述心跳查询结果确定故障通信模块,以对相应的信道和/或上述故障通信模块启动软复位恢复机制。
5、进一步地,基于前述方案,上述心跳数据包携
6、进一步地,基于前述方案,上述心跳查询结果包括当前节点发送心跳数据包后未收到对应的反馈信息、接收到的心跳数据包的循环冗余校核码的校验错误、或当前节点接收到心跳数据包的第一时间戳与相邻节点发送该心跳数据包的第二时间戳的差值大于预设处理时长。
7、进一步地,基于前述方案,上述基于上述心跳查询结果确定故障通信模块,以对相应的信道和/或上述故障通信模块启动软复位恢复机制,包括:
8、基于上述心跳查询结果定位互联异常的两相邻节点,并在断开与可疑通信模块相关联的其他模块的通信链接后,对上述可疑通信模块启动软复位恢复机制;上述可疑通信模块是定位为互联异常的两相邻节点互联所使用的通信模块。若未定位到可疑通信模块,则确认为通信信道故障,并启动通信建立连接模块的复位,等待信道两侧重新建立连接。
9、进一步地,基于前述方案,上述节点对应的收发器基于现场可编辑逻辑门阵列的io接口实现;上述互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,包括:互联的两相邻节点每隔32个时钟周期使用对应的通信模块周期性的互相发送心跳数据包。
10、进一步地,基于前述方案,上述信道采用电信号通信或光信号通信。
11、第二方面,本申请提供一种集群的心跳管理系统,其包括:
12、拓扑模块,被配置为:节点预设成多边形拓扑结构;其中,任一节点均包括多个独立设置的通信模块,互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接。查询模块,被配置为:互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,得到对应的心跳查询结果;上述心跳数据包的有效范围是从一个节点的通信模块到相邻节点的通信模块。处理模块,被配置为:基于上述心跳查询结果确定故障通信模块,以对相应的信道和/或上述故障通信模块启动软复位恢复机制。
13、第三方面,本申请提供一种电子设备,包括至少一个处理器、至少一个存储器和数据总线;其中:上述处理器与上述存储器通过上述数据总线完成相互间的通信;上述存储器存储有被上述处理器执行的程序指令,上述处理器调用上述程序指令以执行如上述第一方面中任一项所述的方法。
14、进一步地,基于前述方案,还包括中央处理器,所述中央处理器用于通过集群通信随时读取节点间通信的连接状况进行实时监测通信故障,以根据通信状态选择更优的数据传输路径。
15、第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项所述的方法。
16、相对于现有技术,本申请至少具有如下优点或有益效果:
17、本申请提出了一种集群的心跳管理方法,其互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接,然后通过互相独立设置的通信模块互相进行心跳检测,所依据的心跳数据仅从一个节点的通信模块到相邻节点的通信模块才维持有效,可以快速精准的检测和识别出心跳数据包在传输过程中出现的异常,以便于采用心跳检测加软复位的方式快速恢复通信出错的节点。由于互联的两相邻节点之间利用各自独立设置的通信模块进行通信连接,从而软复位时可仅复位该节点通信异常的通信模块,其他节点以及该节点的其他模块均不复位,能尽可能保证集群的其他功能正常。
本文档来自技高网...【技术保护点】
1.一种集群的心跳管理方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述心跳数据包携带有循环冗余校核码,所述心跳查询结果携带有循环冗余校核码的校验结果、以及心跳数据包传输过程中的异常信息。
3.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述心跳查询结果包括当前节点发送心跳数据包后未收到对应的反馈信息、接收到的心跳数据包的循环冗余校核码的校验错误、或当前节点接收到心跳数据包的第一时间戳与相邻节点发送该心跳数据包的第二时间戳的差值大于预设处理时长。
4.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制,包括:
5.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述节点对应的收发器基于现场可编辑逻辑门阵列的IO接口实现;所述互联的两相邻节点使用对应的通信模块周期性的互相发送心跳数据包,包括:互联的两相邻节点每隔32个时钟周期使用对应的通信模块周期性的互相发送心跳数据包。
...【技术特征摘要】
1.一种集群的心跳管理方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述心跳数据包携带有循环冗余校核码,所述心跳查询结果携带有循环冗余校核码的校验结果、以及心跳数据包传输过程中的异常信息。
3.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述心跳查询结果包括当前节点发送心跳数据包后未收到对应的反馈信息、接收到的心跳数据包的循环冗余校核码的校验错误、或当前节点接收到心跳数据包的第一时间戳与相邻节点发送该心跳数据包的第二时间戳的差值大于预设处理时长。
4.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述基于所述心跳查询结果确定故障通信模块,以对相应的信道和/或所述故障通信模块启动软复位恢复机制,包括:
5.如权利要求1所述的一种集群的心跳管理方法,其特征在于,所述节点对应的收发器基于现场可编辑逻辑门阵列的io接口实现;所述互联的两相邻节点使用对应的通信模块周期...
【专利技术属性】
技术研发人员:请求不公布姓名,张岩,张海洋,
申请(专利权)人:北京荷智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。