集群节点故障检测方法技术

技术编号:39642413 阅读:7 留言:0更新日期:2023-12-09 11:09
本发明专利技术属于故障检测技术领域,公开了一种集群节点故障检测方法

【技术实现步骤摘要】
集群节点故障检测方法、装置、设备及存储介质


[0001]本专利技术涉及故障检测
,尤其涉及一种集群节点故障检测方法

装置

设备及存储介质


技术介绍

[0002]如今确定集群中的故障节点一般是通过在集群中设置一个监控节点,令被监控的集群节点以特定时长为周期,定期向监控节点发送心跳信息(
heartbeat message)
,在多个周期内,未收到某个集群节点发送的心跳信息时,将其确诊为故障节点;但是,此种方法存在以下缺陷:
1、
诊断时间过长,可能无法满足一些高可用系统的需求

例如:如果系统设计为
10
秒一次心跳,连续三次未检测到心跳信息,则确诊为故障节点,在此种情况下,需要至少
30
秒才能确诊一个故障节点

而为了避免降低系统的响应速度,不可能将心跳检测的周期设置的过短,注定了以此种方式检测故障接点的时间周期偏长;
2、
过于依赖心跳监控的控制网络断定故障节点,为了避免两者相互干扰,集群设计中往往将控制网络和业务网络分离,并且健康监控往往在控制网络内实现

若控制网络出现故障,业务网络还正常工作,用户还在继续利用业务网络写入数据,而系统控制层则可能认为已经出现故障,出现误诊,导致指导用户将输入写入错误的地方,从而造成数据损坏;
3、
除了单纯依赖控制网络,集群还单纯依赖了监控节点和被监控节点之间的控制网络通路,若网络通路异常,则被监控节点无法将心跳信息正常发送至监控节点,此时监控节点也会判定为被监控节点出现故障,从而出现误诊


技术实现思路

[0003]本专利技术的主要目的在于提供一种集群节点故障检测方法

装置

设备及存储介质,旨在解决现有技术在监测集群中节点是否出现故障时,检测周期长,且容易出现误诊的情况的技术问题

[0004]为实现上述目的,本专利技术提供了一种集群节点故障检测方法,所述集群节点故障检测方法应用于集群节点,所述集群节点为业务集群中的任一业务节点;所述集群节点故障检测方法包括以下步骤:在检测到节点组群域中新生成状态汇报信令时,确定所述状态汇报信令对应的信令发起节点;对节点群组列表中所述信令发起节点的最后活动时刻进行更新;检测所述节点群组列表中是否存在对应的最后活动时刻与当前时刻之间间隔大于预设阈值的目标节点,所述节点组群域由所述节点群组列表中的集群节点组合构建;若存在,则对所述目标节点进行故障检测;若故障检测未通过,则根据所述目标节点的节点信息生成故障信息,并将所述故
障信息上报至故障监控节点

[0005]可选的,所述若存在,则对所述目标节点进行故障检测的步骤,包括:若存在,则根据所述目标节点的节点信息构建故障检测信令;在节点组群域中组播所述故障检测信令;若在第一预设时长内,在所述节点组群域中未生成所述故障检测信令对应的检测响应信令,则判定故障检测未通过

[0006]可选的,所述在节点组群域中组播所述故障检测信令的步骤之后,还包括:若在第一预设时长内,检测所述节点组群域中生成所述故障检测信令对应的检测响应信令,则从所述检测响应信令中提取故障验证数据;对所述故障验证数据进行解析,获得节点验证信息;将所述节点验证信息与所述目标节点的节点信息进行比较;若所述节点验证信息与所述目标节点的节点信息不一致,则判定故障检测未通过

[0007]可选的,所述若存在,则对所述目标节点进行故障检测的步骤,包括:根据本地节点对应的节点信息构建检测参数;根据所述检测参数构建故障检测信令;获取所述目标节点与本地节点之间的至少两个通信通道;通过所述至少两个通信通道将所述故障检测信令发送至所述目标节点;若在第一预设时长内,所述目标节点未通过所述至少两个通信通道反馈检测响应信令,则判定故障检测未通过

[0008]可选的,所述根据本地节点对应的节点信息构建检测参数的步骤,包括:获取本地节点的节点信息;以第一预设顺序将所述节点信息进行数据组合,获得组合数据;对所述组合数据进行分割,获得多个分割数据;以第二预设顺序将所述多个分割数据进行拼接, 获得拼接数据;通过预设签名算法对所述拼接数据进行加密,获得加密数据;根据所述加密数据构建检测参数

[0009]可选的,所述若在第一预设时长内,所述目标节点未通过所述至少两个通信通道反馈检测响应信令,则判定故障检测未通过的步骤,包括:若在第一预设时长内,所述目标节点未通过所述至少两个通信通道反馈检测响应信令,则根据所述节点群组列表确定转发节点;将所述故障检测信令发送至所述转发节点,以使所述转发节点将所述故障检测信令转发至所述目标节点;若在第二预设时长内未接收到所述转发节点转发的检测响应信令,则判定故障检测未通过

[0010]可选的,所述集群节点故障检测方法还包括:在接收到故障检测信令时,获取本地节点的节点信息;以第三预设顺序将所述本地节点信息进行数据组合,获得组合数据;对所述组合数据进行分割,获得多个分割数据;
以第四预设顺序将所述多个分割数据进行拼接, 获得拼接数据;通过预设签名算法对所述拼接数据进行加密,获得故障验证数据;以所述故障验证数据为信令参数,构建状态汇报信令;将所述状态汇报信令在节点组群域中进行组播

[0011]此外,为实现上述目的,本专利技术还提出一种集群节点故障检测装置,所述集群节点故障检测装置包括以下模块:监测模块,用于在检测到节点组群域中新生成状态汇报信令时,确定所述状态汇报信令对应的信令发起节点;更新模块,用于对节点群组列表中所述信令发起节点的最后活动时刻进行更新;检测模块,用于检测所述节点群组列表中是否存在对应的最后活动时刻与当前时刻之间间隔大于预设阈值的目标节点,所述节点组群域由所述节点群组列表中的集群节点组合构建;所述检测模块,还用于若存在,则对所述目标节点进行故障检测;发送模块,用于若故障检测未通过,则根据所述目标节点的节点信息生成故障信息,并将所述故障信息上报至故障监控节点

[0012]此外,为实现上述目的,本专利技术还提出一种集群节点故障检测设备,所述集群节点故障检测设备包括:处理器

存储器及存储在所述存储器上并可在所述处理器上运行的集群节点故障检测程序,所述集群节点故障检测程序被处理器执行时实现如上所述的集群节点故障检测方法的步骤

[0013]此外,为实现上述目的,本专利技术还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有集群节点故障检测程序,所述集群节点故障检测程序执行时实现如上所述的集群节点故障检测方法的步骤

[0014]本专利技术通过在检测到节点组群域中新生成状态汇报信令时,确定状态汇报信令对应的信令发起节点;对节点群组列表中信令发起节点的最后活动时刻进行更新;检测节点群组列表中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种集群节点故障检测方法,其特征在于,所述集群节点故障检测方法应用于集群节点,所述集群节点为业务集群中的任一业务节点;所述集群节点故障检测方法包括以下步骤:在检测到节点组群域中新生成状态汇报信令时,确定所述状态汇报信令对应的信令发起节点;对节点群组列表中所述信令发起节点的最后活动时刻进行更新;检测所述节点群组列表中是否存在对应的最后活动时刻与当前时刻之间间隔大于预设阈值的目标节点,所述节点组群域由所述节点群组列表中的集群节点组合构建;若存在,则对所述目标节点进行故障检测;若故障检测未通过,则根据所述目标节点的节点信息生成故障信息,并将所述故障信息上报至故障监控节点
。2.
如权利要求1所述的集群节点故障检测方法,其特征在于,所述若存在,则对所述目标节点进行故障检测的步骤,包括:若存在,则根据所述目标节点的节点信息构建故障检测信令;在节点组群域中组播所述故障检测信令;若在第一预设时长内,在所述节点组群域中未生成所述故障检测信令对应的检测响应信令,则判定故障检测未通过
。3.
如权利要求2所述的集群节点故障检测方法,其特征在于,所述在节点组群域中组播所述故障检测信令的步骤之后,还包括:若在第一预设时长内,检测所述节点组群域中生成所述故障检测信令对应的检测响应信令,则从所述检测响应信令中提取故障验证数据;对所述故障验证数据进行解析,获得节点验证信息;将所述节点验证信息与所述目标节点的节点信息进行比较;若所述节点验证信息与所述目标节点的节点信息不一致,则判定故障检测未通过
。4.
如权利要求1所述的集群节点故障检测方法,其特征在于,所述若存在,则对所述目标节点进行故障检测的步骤,包括:根据本地节点对应的节点信息构建检测参数;根据所述检测参数构建故障检测信令;获取所述目标节点与本地节点之间的至少两个通信通道;通过所述至少两个通信通道将所述故障检测信令发送至所述目标节点;若在第一预设时长内,所述目标节点未通过所述至少两个通信通道反馈检测响应信令,则判定故障检测未通过
。5.
如权利要求4所述的集群节点故障检测方法,其特征在于,所述根据本地节点对应的节点信息构建检测参数的步骤,包括:获取本地节点的节点信息;以第一预设顺序将所述节点信息进行数据组合,获得组合数据;对所述组合数据进行分割,获得多个分割数据;以第二预设顺序将所述多个分割数据进行拼接, 获得拼接数据;通过预设签名算法对所述拼接数据进行加密,获得加密数据;
根据所述...

【专利技术属性】
技术研发人员:许立宪蒙立益
申请(专利权)人:北京腾达泰源科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1