【技术实现步骤摘要】
集群节点故障检测方法、装置、设备及存储介质
[0001]本专利技术涉及故障检测
,尤其涉及一种集群节点故障检测方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]如今确定集群中的故障节点一般是通过在集群中设置一个监控节点,令被监控的集群节点以特定时长为周期,定期向监控节点发送心跳信息(
heartbeat message)
,在多个周期内,未收到某个集群节点发送的心跳信息时,将其确诊为故障节点;但是,此种方法存在以下缺陷:
1、
诊断时间过长,可能无法满足一些高可用系统的需求
。
例如:如果系统设计为
10
秒一次心跳,连续三次未检测到心跳信息,则确诊为故障节点,在此种情况下,需要至少
30
秒才能确诊一个故障节点
。
而为了避免降低系统的响应速度,不可能将心跳检测的周期设置的过短,注定了以此种方式检测故障接点的时间周期偏长;
2、
过于依赖心跳监控的控制网络断定故障节点,为了避免两者相互干扰,集群设计中往往将控制网络和业务网络分离,并且健康监控往往在控制网络内实现
。
若控制网络出现故障,业务网络还正常工作,用户还在继续利用业务网络写入数据,而系统控制层则可能认为已经出现故障,出现误诊,导致指导用户将输入写入错误的地方,从而造成数据损坏;
3、
除了单纯依赖控制网络,集群还单纯依赖了监控节点和被监控节点之间的控制网络通 ...
【技术保护点】
【技术特征摘要】
1.
一种集群节点故障检测方法,其特征在于,所述集群节点故障检测方法应用于集群节点,所述集群节点为业务集群中的任一业务节点;所述集群节点故障检测方法包括以下步骤:在检测到节点组群域中新生成状态汇报信令时,确定所述状态汇报信令对应的信令发起节点;对节点群组列表中所述信令发起节点的最后活动时刻进行更新;检测所述节点群组列表中是否存在对应的最后活动时刻与当前时刻之间间隔大于预设阈值的目标节点,所述节点组群域由所述节点群组列表中的集群节点组合构建;若存在,则对所述目标节点进行故障检测;若故障检测未通过,则根据所述目标节点的节点信息生成故障信息,并将所述故障信息上报至故障监控节点
。2.
如权利要求1所述的集群节点故障检测方法,其特征在于,所述若存在,则对所述目标节点进行故障检测的步骤,包括:若存在,则根据所述目标节点的节点信息构建故障检测信令;在节点组群域中组播所述故障检测信令;若在第一预设时长内,在所述节点组群域中未生成所述故障检测信令对应的检测响应信令,则判定故障检测未通过
。3.
如权利要求2所述的集群节点故障检测方法,其特征在于,所述在节点组群域中组播所述故障检测信令的步骤之后,还包括:若在第一预设时长内,检测所述节点组群域中生成所述故障检测信令对应的检测响应信令,则从所述检测响应信令中提取故障验证数据;对所述故障验证数据进行解析,获得节点验证信息;将所述节点验证信息与所述目标节点的节点信息进行比较;若所述节点验证信息与所述目标节点的节点信息不一致,则判定故障检测未通过
。4.
如权利要求1所述的集群节点故障检测方法,其特征在于,所述若存在,则对所述目标节点进行故障检测的步骤,包括:根据本地节点对应的节点信息构建检测参数;根据所述检测参数构建故障检测信令;获取所述目标节点与本地节点之间的至少两个通信通道;通过所述至少两个通信通道将所述故障检测信令发送至所述目标节点;若在第一预设时长内,所述目标节点未通过所述至少两个通信通道反馈检测响应信令,则判定故障检测未通过
。5.
如权利要求4所述的集群节点故障检测方法,其特征在于,所述根据本地节点对应的节点信息构建检测参数的步骤,包括:获取本地节点的节点信息;以第一预设顺序将所述节点信息进行数据组合,获得组合数据;对所述组合数据进行分割,获得多个分割数据;以第二预设顺序将所述多个分割数据进行拼接, 获得拼接数据;通过预设签名算法对所述拼接数据进行加密,获得加密数据;
根据所述...
【专利技术属性】
技术研发人员:许立宪,蒙立益,
申请(专利权)人:北京腾达泰源科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。