节点故障监测方法、装置、系统、电子设备及存储介质制造方法及图纸

技术编号:38717669 阅读:10 留言:0更新日期:2023-09-08 15:00
本发明专利技术提供一种节点故障监测方法、装置、系统、电子设备及存储介质,涉及计算机技术领域,该方法包括:向所述分布式集群系统中的第二节点发送第一心跳报文;接收所述第二节点返回的第二心跳报文,根据所述第二心跳报文,获取与所述第二节点之间的当前心跳超时次数,以及所述第二节点的当前网络连通状态表;所述第二心跳报文为所述第一心跳报文的响应报文;根据所述当前心跳超时次数和所述当前网络连通状态表,获取所述第二节点的故障监测结果。本发明专利技术实现在网络亚健康状态下准确的分析出故障节点,防止误判导致正常节点被执行故障切换和故障恢复的动作,由此提高节点检测的稳定性和可靠性,进而提高集群的稳定性、安全性和可靠性。靠性。靠性。

【技术实现步骤摘要】
节点故障监测方法、装置、系统、电子设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种节点故障监测方法、装置、系统、电子设备及存储介质。

技术介绍

[0002]分布式集群系统是由多个节点服务器构成的集群,各个节点都运行着处理程序,当一个或几个节点的网络状态处于故障状态,则会影响整个分布式集群系统的性能。因此,如何高效精准地监测出故障节点是目前业界亟待解决的重要课题。
[0003]相关技术中,通常通过PING(Packet Internet Groper,因特网包探索器)或者心跳监测的方式,点对点判断其他节点是否在预设时长内向本节点发送响应信息来判断其他网络节点是否为异常节点,而在网络亚健康的状态下,由于网络连接状态不稳定,因此存在网络异常的节点中的CTDB(Cluster Trivial Database,集群琐碎数据库),若通过PING或心跳监测其他节点传输的响应信息丢失,会误认为其他节点存在故障,使得节点故障检测精度低,进而影响集群系统的稳定性和可靠性。

技术实现思路

[0004]本专利技术提供一种节点故障监测方法、装置、系统、电子设备及存储介质,用以解决现有技术中节点故障检测精度低,进而影响集群的稳定性和可靠性的缺陷,实现提高节点故障检测精度,由此提高集群系统的稳定性和可靠性。
[0005]本专利技术提供一种节点故障监测方法,应用于分布式集群系统中的第一节点,包括:向所述分布式集群系统中的第二节点发送第一心跳报文;接收所述第二节点返回的第二心跳报文,根据所述第二心跳报文,获取与所述第二节点之间的当前心跳超时次数,以及所述第二节点的当前网络连通状态表;所述第二心跳报文为所述第一心跳报文的响应报文;根据所述当前心跳超时次数和所述当前网络连通状态表,获取所述第二节点的故障监测结果。
[0006]根据本专利技术提供的一种节点故障监测方法,所述根据所述当前心跳超时次数和所述当前网络连通状态表,获取所述第二节点的故障监测结果,包括:将所述当前心跳超时次数与次数阈值进行比较,得到第一比较结果;在根据所述第一比较结果,确定所述当前心跳超时次数大于所述次数阈值的情况下,根据所述当前网络连通状态表,判断所述分布式集群系统中是否存在至少一个第三节点与所述第二节点之间的网络连通状态为正常状态;根据判断结果,获取所述第二节点的故障监测结果;其中,所述第三节点为所述分布式集群系统中除所述第一节点和所述第二节点之外的网络节点。
[0007]根据本专利技术提供的一种节点故障监测方法,所述根据判断结果,获取所述第二节
点的故障监测结果,包括:在根据所述判断结果,确定所述分布式集群系统中不存在至少一个所述第三节点与所述第二节点之间的网络连通状态为正常状态的情况下,确定所述第二节点的故障监测结果为故障状态。
[0008]根据本专利技术提供的一种节点故障监测方法,所述根据判断结果,获取所述第二节点的故障监测结果,包括:在根据所述判断结果,确定所述分布式集群系统中存在至少一个所述第三节点与所述第二节点之间的网络连通状态为正常状态的情况下,获取所述第二节点对应的可参考节点的数量;根据所述可参考节点的数量,获取所述第二节点的故障监测结果;其中,所述可参考节点用于在预设周期内为更新得到所述第二节点的当前网络连通状态表提供响应报文。
[0009]根据本专利技术提供的一种节点故障监测方法,所述根据所述可参考节点的数量,获取所述第二节点的故障监测结果,包括:将所述可参考节点的数量与数量阈值进行比较,得到第二比较结果;在根据所述第二比较结果,确定所述可参考节点的数量大于所述数量阈值的情况下,确定所述第二节点的故障监测结果为正常状态。
[0010]根据本专利技术提供的一种节点故障监测方法,所述方法还包括:在根据所述第二比较结果,确定所述可参考节点的数量大于所述数量阈值的情况下,触发隔离动作;其中,所述隔离动作用于将所述第一节点与所述分布式集群系统中除所述第一节点之外的其他网络节点进行隔离,或者将所述第一节点的网口与所述其他网络节点的网口进行隔离。
[0011]根据本专利技术提供的一种节点故障监测方法,所述方法还包括:在根据所述第二比较结果,确定所述可参考节点的数量小于或等于所述数量阈值的情况下,确定所述第二节点的故障监测结果为故障状态。
[0012]根据本专利技术提供的一种节点故障监测方法,所述方法还包括:在确定所述第二节点的故障监测结果为故障状态的情况下,在所述分布式集群系统中获取第四节点;所述第四节点为故障监测结果为正常状态,且与所述第二节点具有相同的服务功能的网络节点;将所述第二节点的待处理任务迁移至所述第四节点;在所述第二节点的故障监测结果由故障状态切换为正常状态的情况下,将所述待处理任务恢复至所述第二节点。
[0013]根据本专利技术提供的一种节点故障监测方法,所述根据所述第二心跳报文,获取与所述第二节点之间的当前心跳超时次数,以及所述第二节点的当前网络连通状态表,包括:对所述第二心跳报文进行解析,得到所述当前网络连通状态表;根据所述当前网络连通状态表,确定与所述第二节点之间的当前网络连通状态;根据所述当前网络连通状态,对心跳超时计数器的计数值进行更新;根据更新后的计数值,获取所述当前心跳超时次数。
[0014]根据本专利技术提供的一种节点故障监测方法,所述根据所述当前网络连通状态,对心跳超时计数器的计数值进行更新,包括:在确定所述当前网络连通状态为异常连通状态的情况下,将所述心跳超时计数器的计数值累计加1。
[0015]根据本专利技术提供的一种节点故障监测方法,所述根据所述当前网络连通状态,对心跳超时计数器的计数值进行更新,包括:在确定所述当前网络连通状态为正常连通状态的情况下,将所述心跳超时计数器的计数值保持不变。
[0016]根据本专利技术提供的一种节点故障监测方法,所述根据所述当前网络连通状态表,确定与所述第二节点之间的当前网络连通状态,包括:在所述当前网络连通状态表中,查找与所述第二节点之间的连通信息;在查找结果为空的情况下,确定所述当前网络连通状态为异常连通状态。
[0017]根据本专利技术提供的一种节点故障监测方法,所述方法还包括:在所述查找结果为查找到所述连通信息的情况下,根据所述连通信息,确定与所述第二节点之间是否断开连接;在确定与所述第二节点之间断开连接的情况下,确定所述当前网络连通状态为异常连通状态。
[0018]根据本专利技术提供的一种节点故障监测方法,所述方法还包括:在确定与所述第二节点之间正常连接的情况下,确定所述当前网络连通状态为正常连通状态。
[0019]根据本专利技术提供的一种节点故障监测方法,所述向所述分布式集群系统中的第二节点发送第一心跳报文,包括:根据与所述分布式集群系统中各网络节点之间的网络连通状态生成目标网络连通状态表;根据所述目标网络连通状态表生成所述第一心跳报文;在当前时间与上次发送时间之间的时间间隔满足时间间隔阈值的情况下,向所述第二节点发送所述第一心跳报文。
[0020]根据本专利技术提供的一种节点故障监测方法,所述方法还包括:根据所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种节点故障监测方法,其特征在于,应用于分布式集群系统中的第一节点,包括:向所述分布式集群系统中的第二节点发送第一心跳报文;接收所述第二节点返回的第二心跳报文,根据所述第二心跳报文,获取与所述第二节点之间的当前心跳超时次数,以及所述第二节点的当前网络连通状态表;所述第二心跳报文为所述第一心跳报文的响应报文;根据所述当前心跳超时次数和所述当前网络连通状态表,获取所述第二节点的故障监测结果。2.根据权利要求1所述的节点故障监测方法,其特征在于,所述根据所述当前心跳超时次数和所述当前网络连通状态表,获取所述第二节点的故障监测结果,包括:将所述当前心跳超时次数与次数阈值进行比较,得到第一比较结果;在根据所述第一比较结果,确定所述当前心跳超时次数大于所述次数阈值的情况下,根据所述当前网络连通状态表,判断所述分布式集群系统中是否存在至少一个第三节点与所述第二节点之间的网络连通状态为正常状态;根据判断结果,获取所述第二节点的故障监测结果;其中,所述第三节点为所述分布式集群系统中除所述第一节点和所述第二节点之外的网络节点。3.根据权利要求2所述的节点故障监测方法,其特征在于,所述根据判断结果,获取所述第二节点的故障监测结果,包括:在根据所述判断结果,确定所述分布式集群系统中不存在至少一个所述第三节点与所述第二节点之间的网络连通状态为正常状态的情况下,确定所述第二节点的故障监测结果为故障状态。4.根据权利要求2所述的节点故障监测方法,其特征在于,所述根据判断结果,获取所述第二节点的故障监测结果,包括:在根据所述判断结果,确定所述分布式集群系统中存在至少一个所述第三节点与所述第二节点之间的网络连通状态为正常状态的情况下,获取所述第二节点对应的可参考节点的数量;根据所述可参考节点的数量,获取所述第二节点的故障监测结果;其中,所述可参考节点用于在预设周期内为更新得到所述第二节点的当前网络连通状态表提供响应报文。5.根据权利要求4所述的节点故障监测方法,其特征在于,所述根据所述可参考节点的数量,获取所述第二节点的故障监测结果,包括:将所述可参考节点的数量与数量阈值进行比较,得到第二比较结果;在根据所述第二比较结果,确定所述可参考节点的数量大于所述数量阈值的情况下,确定所述第二节点的故障监测结果为正常状态。6.根据权利要求5所述的节点故障监测方法,其特征在于,所述方法还包括:在根据所述第二比较结果,确定所述可参考节点的数量大于所述数量阈值的情况下,触发隔离动作;其中,所述隔离动作用于将所述第一节点与所述分布式集群系统中除所述第一节点之外的其他网络节点进行隔离,或者将所述第一节点的网口与所述其他网络节点的网口进行
隔离。7.根据权利要求5所述的节点故障监测方法,其特征在于,所述方法还包括:在根据所述第二比较结果,确定所述可参考节点的数量小于或等于所述数量阈值的情况下,确定所述第二节点的故障监测结果为故障状态。8.根据权利要求1

7任一项所述的节点故障监测方法,其特征在于,所述方法还包括:在确定所述第二节点的故障监测结果为故障状态的情况下,在所述分布式集群系统中获取第四节点;所述第四节点为故障监测结果为正常状态,且与所述第二节点具有相同的服务功能的网络节点;将所述第二节点的待处理任务迁移至所述第四节点;在所述第二节点的故障监测结果由故障状态切换为正常状态的情况下,将所述待处理任务恢复至所述第二节点。9.根据权利要求1

7任一项所述的节点故障监测方法,其特征在于,所述根据所述第二心跳报文,获取与所述第二节点之间的当前心跳超时次数,以及所述第二节点的当前网络连通状态表,包括...

【专利技术属性】
技术研发人员:张烨贺计文
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1