This application discloses a cluster fault recovery method and related devices, which first determines the fault nodes that need to be recovered when the cluster breaks down, then sends the first event to the fault nodes that need to be recovered, and triggers the cluster state machine CSM to send the second event to the cluster; the first event is used for the fault section that needs to be recovered. The second event is used to restore the cluster. Finally, when the recovery of the fault node is completed, the fault node that needs to be restored will join the cluster. The technical scheme provided in this application identifies the fault nodes that need to be recovered in time, and then makes the node recovery parallel with the cluster recovery through event sending. The cluster recovery guides the node to recover data at the same time. Compared with the existing technology, this parallel way of cluster recovery and node recovery can guarantee the security and reliability of node data recovery in cluster.
【技术实现步骤摘要】
一种集群故障恢复方法和相关装置
本申请涉及存储
,特别是涉及一种集群故障恢复方法和相关装置。
技术介绍
在大数据时代到来的今天,越来越多的存储系统被应用于数据存储。在这样庞大的存储集群中,节点宕机的情况时有发生,集群故障影响存储集群中数据的安全性和可靠性。然而,目前现有的集群故障恢复技术安全性和可靠性仍有待提升。
技术实现思路
基于上述问题,本申请提供了一种集群故障恢复方法和相关装置,以及时恢复集群,并保障集群数据的安全性和可靠性。本申请实施例公开了如下技术方案:本申请第一方面提供一种集群故障恢复方法,包括:确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。可选地,所述确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点,具体包括:进程与硬件检测模块通过检测硬件信息 ...
【技术保护点】
1.一种集群故障恢复方法,其特征在于,包括:确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。
【技术特征摘要】
1.一种集群故障恢复方法,其特征在于,包括:确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点;向所述需要进行恢复的故障节点发送第一事件,并触发集群状态机CSM向所述集群发送第二事件;所述第一事件用于对所述需要进行恢复的故障节点进行故障恢复;所述第二事件用于对所述集群进行故障恢复;所述需要进行恢复的故障节点故障恢复完成后,将所述需要进行恢复的故障节点加入所述集群。2.根据权利要求1所述的集群故障恢复方法,其特征在于,所述确定集群发生故障后脱离于所述集群的故障节点中需要进行恢复的故障节点,具体包括:进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点。3.根据权利要求2所述的集群故障恢复方法,其特征在于,在所述进程与硬件检测模块通过检测硬件信息,确定所述需要进行恢复的故障节点之前,所述方法还包括:所述进程与硬件检测模块检测到存储系统的主函数返回的集群错误码时,根据所述集群错误码确定所述集群发生故障。4.根据权利要求2或3所述的集群故障恢复方法,其特征在于,在所述向所述需要进行恢复的故障节点发送第一事件之前,所述方法还包括:所述进程与硬件检测模块将用户数据发送至所述需要进行恢复的故障节点的系统盘进行保存。5.根据权利要求1所述的集群故障恢复方法,其特征在于,所述对所述集群进行故障恢复,具体包括:所述CSM对所述需要进行恢复的故障节点中元数据以外的数据进行清理;所述元数据包括:配置数据、虚拟化表和映射表;将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步。6.根据权利要求5所述的集群故障恢复方法,其特征在于,在所述将所述需要进行恢复的故障节点与所述集群中正常节点进行状态同步之后,所述方法还包括:通知所述需要进行恢复的故障节点刷写掉未处理的数据;所述将所述需要进行恢复的故障节点加入所述集群,具体包...
【专利技术属性】
技术研发人员:柳增运,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。