节点故障记录和处理的方法以及装置制造方法及图纸

技术编号:14411798 阅读:129 留言:0更新日期:2017-01-11 23:45
本发明专利技术公开了一种节点故障记录和处理的方法以及装置,用以解决现有技术中故障处理被遗漏的技术问题。该方法包括:确定所述分布式系统中的任一节点发生故障;获取发生故障的所述节点的故障信息;将所述故障信息广播给所述分布式系统中的其他所有节点,以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。本发明专利技术实施例用于故障节点的记录以及处理。

【技术实现步骤摘要】

本专利技术涉及通信
,具体地,涉及一种节点故障记录和处理的方法以及装置
技术介绍
在分布式系统中,分布在不同地方的各个节点作为一个集群对外提供服务。针对集群环境下的故障处理,现有技术均采用单一的主节点记录故障节点并进行故障处理。也就是说,任一节点在检测到某一节点发送故障后,自身不做记录,而是将故障上报至主节点,由主节点记录并处理。主节点在进行故障处理时,每处理完一个故障会删除对应的故障记录。但是,主节点自身也可能发生故障,在此种情况下,集群中新竞选出来的主节点不能获取到上一任主节点未处理完成的故障记录。这样,新竞选出来的主节点无法对之前的故障进行处理,导致某些节点故障处理被遗漏。由上可知,现有技术中存在故障处理被遗漏的技术问题。
技术实现思路
本专利技术的目的是提供一种节点故障记录和处理的方法以及装置,用以解决现有技术中故障处理被遗漏的技术问题。为了实现上述目的,本专利技术提供一种节点故障记录的方法,所述方法应用于分布式系统,所述分布式系统包括多个节点,所述方法包括:确定所述分布式系统中的任一节点发生故障;获取发生故障的所述节点的故障信息;将所述故障信息广播给所述分布式系统中的其他所有节点,以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。可选地,所述确定分布式系统中的任一节点发生故障包括:第一节点向与所述第一节点相邻的第二节点发送心跳报文,所述第一节点是所述分布式系统中的任一节点;所述第一节点在时间阈值之前,未收到所述第二节点发送的心跳响应报文时,确定所述第二节点发生故障。可选地,所述获取发生故障的所述节点的故障信息,包括:所述第一节点获取所述第二节点的故障信息;所述将所述故障信息广播给所述分布式系统中的其他所有节点包括:所述第一节点记录所述故障信息,并将所述故障信息广播给所述分布式系统中的其他所有节点。本专利技术还提供一种节点故障处理的方法,所述方法应用于分布式系统,所述分布式系统包括多个节点,包括:主节点对所述主节点记录的第一故障记录进行处理;所述主节点在处理完成所述第一故障记录后,广播处理完成消息给所述分布式系统中的其他所有节点,以便接收到所述处理完成消息的节点删除自身记录的第一故障记录,其中,所述分布式系统中的所有节点均记录有相同的故障记录集合,所述第一故障记录是所述故障记录集合中的任一故障记录。可选地,在所述主节点对所述主节点记录的第一故障记录进行处理之前,所述方法还包括:在上一任主节点发生故障时,记录所述上一任主节点的故障信息,其中,所述故障记录集合包括所述上一任主节点的故障信息;确定自身作为新的所述主节点。本专利技术还提供一种节点故障记录的装置,所述装置包括:确定单元,用于确定分布式系统中的任一节点发生故障;获取单元,用于获取发生故障的所述节点的故障信息;广播单元,用于将所述故障信息广播给所述分布式系统中的其他所有节点,以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。可选地,所述装置应用于所述分布式系统中的第一节点,所述第一节点是所述分布式系统中的任一节点,所述装置还包括:发送单元,用于向与所述第一节点相邻的第二节点发送心跳报文;所述确定单元具体用于,所述在时间阈值之前,未收到所述第二节点发送的心跳响应报文时,确定所述第二节点发生故障。可选地,所述获取单元具体用于:获取所述第二节点的故障信息;所述装置还包括:记录单元,用于记录所述第二节点的故障信息。本专利技术还提供一种节点故障处理的装置,所述装置应用于所述分布式系统中的主节点,所述装置包括:故障处理单元,用于对主节点记录的第一故障记录进行处理;广播单元,用于在所述故障数量范元处理完成所述第一故障记录后,广播处理完成消息给所述分布式系统中的其他所有节点,以便接收到所述处理完成消息的节点删除自身记录的第一故障记录,其中,所述分布式系统中的所有节点均记录有相同的故障记录集合,所述第一故障记录是所述故障记录集合中的任一故障记录。可选地,所述装置还包括记录单元,用于在上一任主节点发生故障时,记录所述上一任主节点的故障信息,其中,所述故障记录集合包括所述上一任主节点的故障信息;确定单元,用于确定自身作为新的所述主节点。通过上述技术方案,分布式系统中任意节点发生故障后,其他所有节点均记录发生故障的节点的故障信息。这样,保证了在分布式系统当前的主节点发生故障后,新的主节点中记录有完整故障信息,避免了故障处理的遗漏,也就是说,只要分布式系统中存在一个正常运行的节点,该节点仍记录有该分布式系统中所有的发生故障的节点的故障信息,该节点仍可以对每一个故障节点进行处理,提高了分布式系统的安全性能。具体地,本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中:图1是本专利技术实施例提供的一种分布式系统的架构示意图;图2是本专利技术实施例提供的一种节点故障记录的方法的流程示意图;图3是本专利技术实施例提供的一种节点故障处理的方法的流程示意图;图4是基于图1所示的系统架构提供的一种节点故障记录和处理的方法的流程示意图;图5是本专利技术实施例提供的一种节点故障记录的装置的结构示意图;图6是本专利技术实施例提供的一种节点故障处理的装置的结构示意图;图7是本专利技术实施例提供的一种分布式系统中的节点的结构示意图。具体实施方式以下结合附图对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。为了使本领域的技术人员更容易理解本专利技术实施例提供的技术方案,下面首先对相关的技术实施环境进行简单介绍。如图1所示,分布式系统100中包括多个节点,如图1中示出的节点1、节点2、节点3、节点4、节点5、节点6。其中,分布式系统中的每一个节点到另一个节点之间均有至少一条可达路径,图1中所示的拓扑结构只是一种举例说明,在具体实施时,节点间连接的拓扑结构可以有其他形式。值得说明的是,本专利技术实施例所描述的分布式系统可以是分布式存储系统,在此种情况下,分布式系统中的每一个节点可以为一个存储服务器,还可以是其他分布式系统,本专利技术对比不做限定。在现有的相关技术中,分布式系统中仅主节点记录节点故障信息。例如,参照图1,在节点1为主节点的情况下,节点2至节点6中的任意节点发送故障时,均向节点1上报故障信息,由该节点1统一记录并处理。这样,若节点1自身在处理完所有的故障之前发生故障,新竞选出来的主节点,例如节点2,是无法继续处理节点1之前记录的故障信息的,造成故障处理的遗漏。为了解决上述技术问题,本专利技术实施例提供一种节点故障记录的方法,该方法应用于分布式系统,该分布式系统包括多个节点,如图2所示,该方法包括:S201、确定所述分布式系统中的任一节点发生故障。值得说明的是,本专利技术实施例可以通过心跳机制判断节点是否发生故障。S202、获取发生故障的所述节点的故障信息。示例地,故障信息可以是表单形式的信息,该表单可以记录发生故障的节点的标识,故障类型以及对应的处理方法等。S203、将所述故障信息广播给所述分布式系统中的其他所有节点,以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。本文档来自技高网...
节点故障记录和处理的方法以及装置

【技术保护点】
一种节点故障记录的方法,其特征在于,所述方法应用于分布式系统,所述分布式系统包括多个节点,所述方法包括:确定所述分布式系统中的任一节点发生故障;获取发生故障的所述节点的故障信息;将所述故障信息广播给所述分布式系统中的其他所有节点,以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。

【技术特征摘要】
1.一种节点故障记录的方法,其特征在于,所述方法应用于分布式系统,所述分布式系统包括多个节点,所述方法包括:确定所述分布式系统中的任一节点发生故障;获取发生故障的所述节点的故障信息;将所述故障信息广播给所述分布式系统中的其他所有节点,以便所述分布式系统中所有的节点均记录发生故障的所述节点的故障信息。2.根据权利要求1所述的方法,其特征在于,所述确定分布式系统中的任一节点发生故障包括:第一节点向与所述第一节点相邻的第二节点发送心跳报文,所述第一节点是所述分布式系统中的任一节点;所述第一节点在时间阈值之前,未收到所述第二节点发送的心跳响应报文时,确定所述第二节点发生故障。3.根据权利要求2所述的方法,其特征在于,所述获取发生故障的所述节点的故障信息,包括:所述第一节点获取所述第二节点的故障信息;所述将所述故障信息广播给所述分布式系统中的其他所有节点包括:所述第一节点记录所述故障信息,并将所述故障信息广播给所述分布式系统中的其他所有节点。4.一种节点故障处理的方法,其特征在于,所述方法应用于分布式系统,所述分布式系统包括多个节点,包括:主节点对所述主节点记录的第一故障记录进行处理;所述主节点在处理完成所述第一故障记录后,广播处理完成消息给所述分布式系统中的其他所有节点,以便接收到所述处理完成消息的节点删除自身记录的第一故障记录,其中,所述分布式系统中的所有节点均记录有相同的故障记录集合,所述第一故障记录是所述故障记录集合中的任一故障记录。5.根据权利要求4所述的方法,其特征在于,在所述主节点对所述主节点记录的第一故障记录进行处理之前,所述方法还包括:在上一任主节点发生故障时,记录所述上一任主节点的故障信息,其中,所述故障记录集合包...

【专利技术属性】
技术研发人员:郝健于洋王冰倩沈牧溪
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1