一种故障节点隔离方法及装置制造方法及图纸

技术编号:28941517 阅读:17 留言:0更新日期:2021-06-18 21:46
本申请涉及分布式存储技术领域,特别涉及一种故障节点隔离方法及装置。该方法应用于监控节点,所述方法包括:接收第一节点上报的第二节点故障的目标信息;统计预设历史时长内上报所述第二节点故障的节点数量;若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。

【技术实现步骤摘要】
一种故障节点隔离方法及装置
本申请涉及分布式存储
,特别涉及一种故障节点隔离方法及装置。
技术介绍
分布式存储系统是建立在网络之上的存储系统,分布式存储系统将数据分布在不同的节点上,节点间通过网络进行通信,如果其中某一个节点存在网络问题或者硬件故障,则其他正常节点无法和该问题节点进行正常通信,如果不及时将该有问题节点从系统中隔离,会影响整个分布式存储系统的业务。为了避免部分节点故障影响整个分布式存储系统的业务,节点间会进行周期性检测,并将故障节点上报监控节点,之后监控节点根据上报的故障节点信息将故障节点从系统中隔离,从而保障系统业务的稳定性。具体地,为了保证节点间可以正常通信,分布式存储系统节点间会进行周期性心跳检测,判断其他节点网络是否正常,如果某一节点(假设为A节点)发现无法和另外一节点(假设为B)正常通信,则A认为B节点故障并上报给监控节点;如果在一个周期内,某一个节点被其他节点报故障的次数达到隔离阈值,则监控节点认为该节点故障,并将该节点从系统中隔离,避免影响业务。隔离阈值不能设置的太高,避免故障节点无法及时隔离,同时不能设置太低,避免正常节点被误隔离出系统。通常分布式存储系统采用的隔离阈值threshold为:threshold=(N+1)/2其中,N为分布式系统的节点数,如果总共有3个节点,则隔离阈值为2。然而,采用上述方法,当某一节点存在异常,无法与其他一些节点正常通信,但在心跳检测过程中被其他节点报故障的次数未达到隔离阈值的情况,这样就无法对该节点进行隔离,最终影响整个分布式存储系统的情况。
技术实现思路
本申请提供了一种故障节点隔离方法及装置,用以解决现有技术中存在的无法及时隔离故障节点的问题。第一方面,本申请提供了一种故障节点隔离方法,应用于监控节点,所述方法包括:接收第一节点上报的第二节点故障的目标信息统计预设历史时长内上报所述第二节点故障的节点数量;若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。可选地,所述方法还包括:若所述故障记录表中已存在所述第一节点上报的第二节点故障的记录,则丢弃所述目标信息。可选地,所述方法还包括:将所述目标信息添加至所述故障记录表后,若判定连续m个心跳检测周期内有至少一个心跳检测周期未接收到所述第一节点上报的所述第二节点故障的信息,则删除所述故障记录表中记录的所述第一节点上报的第二节点故障的记录。可选地,一个节点上报的故障信息至少包括:上报故障的源节点信息,被上报故障的目标节点信息和上报故障时间信息。可选地,隔离所述第一节点和/或所述第二节点的步骤包括:将所述目标信息添加至所述故障记录表后,统计连续n个检测周期内所述第一节点被其他节点上报故障的第一次数和所述第二节点被其他节点上报故障的第二次数;若所述第一次数大于设定值,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述设定值,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录;或者,若所述第一次数大于第二次数,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述第一次数,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录。第二方面,本申请提供了一种故障节点隔离装置,应用于监控节点,所述装置包括:接收单元,用于接收第一节点上报的第二节点故障的目标信息统计单元,用于统计预设历史时长内上报所述第二节点故障的节点数量;添加单元,若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则所述添加单元将所述目标信息添加至所述故障记录表中;判断单元,用于判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息;隔离单元,若所述判断单元判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则所述隔离单元隔离所述第一节点和/或所述第二节点。可选地,所述装置还包括丢弃单元:若所述故障记录表中已存在所述第一节点上报的第二节点故障的记录,则所述丢弃单元丢弃所述目标信息。可选地,所述装置还包括删除单元,所述添加单元将所述目标信息添加至所述故障记录表后,若所述判断单元判定连续m个心跳检测周期内有至少一个心跳检测周期未接收到所述第一节点上报的所述第二节点故障的信息,则所述删除单元删除所述故障记录表中记录的所述第一节点上报的第二节点故障的记录。可选地,一个节点上报的故障信息至少包括:上报故障的源节点信息,被上报故障的目标节点信息和上报故障时间信息。可选地,隔离所述第一节点和/或所述第二节点时,所述隔离单元具体用于:将所述目标信息添加至所述故障记录表后,统计连续n个检测周期内所述第一节点被其他节点上报故障的第一次数和所述第二节点被其他节点上报故障的第二次数;若所述第一次数大于设定值,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述设定值,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录;或者,若所述第一次数大于第二次数,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述第一次数,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录。第三方面,本申请实施例提供一种故障节点隔离装置,该装置包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如上述第一方面中任一项所述的方法的步骤。第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第一方面中任一项所述方法的步骤。综上可知,本申请实施例提供的故障节点隔离方法,应用于监控节点,所述方法包括:接收第一节点上报的第二节点故障的目标信息;统计预设历史时长内上报所述第二节点故障的节点数量;若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。采用本申请实施例提供的故障节点隔离方法,当某节点被报故障次数未达到隔离阈值本文档来自技高网
...

【技术保护点】
1.一种故障节点隔离方法,其特征在于,应用于监控节点,所述方法包括:/n接收第一节点上报的第二节点故障的目标信息;/n统计预设历史时长内上报所述第二节点故障的节点数量;/n若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;/n判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。/n

【技术特征摘要】
1.一种故障节点隔离方法,其特征在于,应用于监控节点,所述方法包括:
接收第一节点上报的第二节点故障的目标信息;
统计预设历史时长内上报所述第二节点故障的节点数量;
若所述节点数量小于隔离阈值,且故障记录表中不存在所述第一节点上报的第二节点故障的记录,则将所述目标信息添加至所述故障记录表中;
判断连续m个心跳检测周期内是否均接收到所述第一节点上报的所述第二节点故障的信息,若判定连续m个心跳检测周期内均接收到所述第一节点上报的所述第二节点故障的信息,则隔离所述第一节点和/或所述第二节点。


2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若所述故障记录表中已存在所述第一节点上报的第二节点故障的记录,则丢弃所述目标信息。


3.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述目标信息添加至所述故障记录表后,若判定连续m个心跳检测周期内有至少一个心跳检测周期未接收到所述第一节点上报的所述第二节点故障的信息,则删除所述故障记录表中记录的所述第一节点上报的第二节点故障的记录。


4.如权利要求1-3任一项所述的方法,其特征在于,
一个节点上报的故障信息至少包括:上报故障的源节点信息,被上报故障的目标节点信息和上报故障时间信息。


5.如权利要求4所述的方法,其特征在于,隔离所述第一节点和/或所述第二节点的步骤包括:
将所述目标信息添加至所述故障记录表后,统计连续n个检测周期内所述第一节点被其他节点上报故障的第一次数和所述第二节点被其他节点上报故障的第二次数;
若所述第一次数大于设定值,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述设定值,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录;或者,
若所述第一次数大于第二次数,则隔离所述第一节点,并删除所述故障记录表中与所述第一节点相关联的记录,若所述第二次数大于所述第一次数,则隔离所述第二节点,并删除所述故障记录表中与所述第二节点相关联的记录。


6.一种故障节点隔离装置,其特征在于,应用于监控节点,所述装置包括:
接收...

【专利技术属性】
技术研发人员:赵弘
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1