一种存储集群恢复方法及设备技术

技术编号:17211759 阅读:20 留言:0更新日期:2018-02-07 23:00
本申请公开了一种存储集群恢复方法及设备,包括:在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节点的状态是否一致;若不一致,则向各控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启存储系统进程。本申请在存储系统进程发生失效导致退出时,能够自动重启进程,并智能判断是否需要进入集群恢复流程,提高了存储系统在多控制器节点软件失效场景下的恢复能力,提高了系统的稳定性和可维护性。

A storage cluster recovery method and equipment

【技术实现步骤摘要】
一种存储集群恢复方法及设备
本专利技术涉及存储
,特别是涉及一种存储集群恢复方法及设备。
技术介绍
随着存储技术的发展,多数存储系统都通过采用多个存储控制器组成存储控制器集群来提高存储系统的性能和稳定性,当集群中某一个控制器节点发生故障时,其它节点能够接替该控制器的工作,使整体系统保持工作,以保证读取/写入(Input/Output,I/O)不中断。而且,当故障的控制器被替换或修复后,再加入集群时,集群能够自动将该控制器节点恢复成与其它控制器一致,并恢复正常工作。然而,上面的方案无法解决一种特殊场景。由于集群中所有控制器节点的软件系统都是一致的,而且在运行过程中各节点的状态也是一致的,因而存在一种可能,当集群运行到某一状态或处理某个事件时,在所有控制器的软件系统中触发了同一个缺陷或软件错误(Bug),导致所有控制器同时故障。此时所有控制器都无法工作,存储系统的I/O会中断。因此,如何在多节点软件失效场景下,能够让控制器自动恢复到故障前的状态,并能够自动组成集群,恢复工作,是本领域技术人员亟待解决的技术问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种存储集群恢复方法及设备,可以提高存储系统在多控制器节点软件失效场景下的恢复能力,以及系统的稳定性和可维护性。其具体方案如下:一种存储集群恢复方法,包括:在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节点的状态是否一致;若不一致,则向各所述控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启所述存储系统进程。优选地,在本专利技术实施例提供的上述存储集群恢复方法中,启动集群恢复流程,具体包括:将所述存储系统进程重启前遗留的非关键数据清除,只保留集群恢复所需的关键数据;根据所述关键数据,自动将所述集群恢复到失效前的状态。优选地,在本专利技术实施例提供的上述存储集群恢复方法中,启动集群恢复流程,具体还包括:将各所述控制器节点恢复前未处理的事件丢弃;同步各所述控制器节点的状态,以使各所述控制器节点都处于同一状态。优选地,在本专利技术实施例提供的上述存储集群恢复方法中,自动重启所述存储系统进程,具体包括:所述存储系统进程进行自动重启,重新加入所述集群,开始I/O处理。优选地,在本专利技术实施例提供的上述存储集群恢复方法中,当前集群中的各控制器节点的状态不一致,具体包括:当前集群中超过半数的控制器节点同时发生软件错误。本专利技术实施例还提供了一种存储集群恢复设备,包括:监控模块;所述监控模块,用于在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节点的状态是否一致;若不一致,则向各所述控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启所述存储系统进程。优选地,在本专利技术实施例提供的上述存储集群恢复设备中,所述监控模块部署在所述集群中的每个所述控制器节点中。本专利技术所提供的一种存储集群恢复方法及设备,包括:在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节点的状态是否一致;若不一致,则向各控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启存储系统进程。本专利技术在存储系统进程发生失效导致退出时,能够自动重启进程,并智能判断是否需要进入集群恢复流程,提高了存储系统在多控制器节点软件失效场景下的恢复能力,提高了系统的稳定性和可维护性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的存储集群恢复方法的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种存储集群恢复方法,如图1所示,包括:S101、在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节点的状态是否一致;若不一致,则执行步骤S102;S102、向各控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启存储系统进程。在本专利技术实施例提供的上述存储集群恢复方法中,首先在存储系统进程发生失效导致退出时,判断集群是否正处于事件处理的关键阶段,即此时软件系统的故障是否导致了当前集群中的各控制器节点的状态不一致;若不一致,则向各控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启存储系统进程。本专利技术在存储系统进程发生失效导致退出时,能够自动重启进程,并智能判断是否需要进入集群恢复流程,提高了存储系统在多控制器节点软件失效场景下的恢复能力,提高了系统的稳定性和可维护性在具体实施时,在本专利技术实施例提供的上述存储集群恢复方法中,启动集群恢复流程,具体可以包括两个阶段:第一阶段:将存储系统进程重启前遗留的非关键数据清除,以排除再次发生错误的可能,只保留集群恢复所需的关键数据;根据关键数据,自动将集群恢复到失效前的状态。第二阶段:将各控制器节点恢复前未处理的事件丢弃;同步各控制器节点的状态,以使各控制器节点都处于同一状态。针对多节点的软件失效场景,经过上述两个阶段,进入恢复流程后,能够自动恢复关键配置数据,并指导各控制器节点协同工作,发起集群自动恢复,将集群恢复到失效前的状态,有效防止数据丢失。在具体实施时,在本专利技术实施例提供的上述存储集群恢复方法中,在恢复完成后,自动重启存储系统进程,具体可以包括:存储系统进程进行自动重启,重新加入集群,开始I/O处理。此时的I/O处理为正常的I/O处理。在具体实施时,在本专利技术实施例提供的上述存储集群恢复方法中,上述当前集群中的各控制器节点的状态不一致的典型场景可以是当前集群中超过半数的控制器节点同时发生软件错误,导致了集群无法正常工作,无法达到一致的状态。当然,也可以是其它场景,在此不做限定。基于同一专利技术构思,本专利技术实施例还提供了一种存储集群恢复设备,由于该设备解决问题的原理与前述一种存储集群恢复方法相似,因此该设备的实施可以参见存储集群恢复方法的实施,重复之处不再赘述。在具体实施时,本专利技术实施例提供的存储集群恢复设备,具体包括:监控模块;上述监控模块,用于在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节点的状态是否一致;若不一致,则向各控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启存储系统进程。在本专利技术实施例提供的上述存储集群恢复设备中,监控模块只要负责监控和管理存储系统的运行情况,可以自动重启存储系统进程,利用关键配置数据,将集群恢复到失效前的状态,进而恢复正常的I/O处理,提高了存储系统在多控制器节点软件失效场景下的恢复能力,提高了系统的稳定性和可维护性。在具体实施时,在本专利技术实施例提供的上述存储集群恢复设备中,监控模块可以具体部署在集群中的每个控制器节点中。这样每个控制器节点中的监控模块都可以尝试重启存储系统进程并发送集群回复事件。本专利技术实施例提供的一种存储集群恢复方法及设备,包括:在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节本文档来自技高网...
一种存储集群恢复方法及设备

【技术保护点】
一种存储集群恢复方法,其特征在于,包括:在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节点的状态是否一致;若不一致,则向各所述控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启所述存储系统进程。

【技术特征摘要】
1.一种存储集群恢复方法,其特征在于,包括:在存储系统进程发生失效导致退出时,判断当前集群中的各控制器节点的状态是否一致;若不一致,则向各所述控制器节点发送集群恢复事件,启动集群恢复流程,同时自动重启所述存储系统进程。2.根据权利要求1所述的存储集群恢复方法,其特征在于,启动集群恢复流程,具体包括:将所述存储系统进程重启前遗留的非关键数据清除,只保留集群恢复所需的关键数据;根据所述关键数据,自动将所述集群恢复到失效前的状态。3.根据权利要求2所述的存储集群恢复方法,其特征在于,启动集群恢复流程,具体还包括:将各所述控制器节点恢复前未处理的事件丢弃;同步各所述控制器节点的状态,以使各所述控制器节点都处于同一状态。4.根据权利要求3...

【专利技术属性】
技术研发人员:王孝鹏
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1