高可用性系统中的故障处理方法和故障处理集群技术方案

技术编号:16177725 阅读:36 留言:0更新日期:2017-09-09 05:11
本发明专利技术公开了一种高可用性系统中的故障处理方法和故障处理集群,所述故障处理集群中每个节点包括:获取模块,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;监测模块,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;节点管理模块,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。

【技术实现步骤摘要】
高可用性系统中的故障处理方法和故障处理集群
本专利技术涉及通信
,尤指一种高可用性系统中的故障处理方法和故障处理集群。
技术介绍
高可用性集群(HighAvailable,HA)是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断。但在高可用(HA)系统中,当联系2个节点之间的联系断开时,原本为一整体、动作协调的HA系统,就分裂成为2个独立的个体。由于相互失去了联系,都会认为是对方出了故障。两个节点上的HA软件像“裂脑人”一样,争抢共享资源、争起应用服务,就会发生严重后果,比如,共享资源被瓜分、2边服务都起不来了;或者2个节点服务都起来了,但同时读写共享存储,导致数据损坏,比如hdfs文件系统元数据出错等。因此,在高可用(HA)系统中,当联系2个节点之间的联系断开时,如何对集群中节点进行管理以保证业务正常运行是亟待解决的问题。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种高可用性系统中的故障处理方法和故障处理集群,能够防止高可用集群脑裂现象的产生。为了达到本专利技术目的,本专利技术提供了一种高可用性系统中的故障处理集群,所述故障处理集群中每个节点包括:获取模块,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;监测模块,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;节点管理模块,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。其中,所述故障处理集群有2N+1个节点,其中一个节点为主节点,其余节点为从节点,N为正整数;其中:发送模块,用于通知从节点从工作集群中选择代替所述出现故障的节点继续工作的节点;确定模块,用于根据从节点和主节点的选择结果,确定代替故障节点继续工作的节点;其中,所述每个节点包括:选举模块,用于从工作集群中选择代替所述出现故障的节点继续工作的节点,并将选择结果发送给所述主节点。其中,所述节点管理模块包括:获取单元,用于获取出现故障节点的节点上基板管理控制器BMC的IP地址信息;发送单元,用于根据出现故障节点的节点上BMC的IP地址信息,向出现故障的节点的BMC发送关闭电源的指令。其中,所述每个节点还包括:告警模块,用于输出出现故障的节点的故障描述信息。其中,所述每个节点还包括:策略管理模块,用于在接收到监测策略的更新请求后,根据所述更新请求,对监测策略进行更新,并将更新后的监测策略发送给所述监测模块。一种高可用性系统中故障处理方法,包括:故障处理集群获取每个节点在高可用性系统中工作集群对应的管理对象,其中所述管理对象为工作集群的节点;根据预先设置的监测策略,对所述管理对象的运行状态进行监测;当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。其中,所述通知出现故障的节点下线之后,所述方法还包括:通知各节点从工作集群中选择代替所述出现故障的节点继续工作的节点;接收各节点发送的选择结果;根据所述选择结果,确定代替故障节点继续工作的节点,其中所述故障处理集群有2N+1个节点,其中一个节点为主节点,其余节点为从节点,N为正整数。其中,所述通知出现故障的节点下线包括:获取出现故障节点的节点上基板管理控制器BMC的IP地址信息;根据出现故障节点的节点上BMC的IP地址信息,向出现故障的节点的BMC发送关闭电源的指令。其中,所述通知出现故障的节点下线之后,所述方法还包括:输出出现故障的节点的故障描述信息。其中,所述方法还包括:在接收到监测策略的更新请求后,根据所述更新请求,对监测策略进行更新,并将更新后的监测策略发送给所述监测模块。本专利技术提供的实施例,通过对集群节点进行故障诊断,当集群中某节点心跳断开,对故障节点进行关机操作,确保故障节点完全关闭,防止高可用集群脑裂现象的产生。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术提供的高可用性系统中的故障处理集群中节点的结构图;图2为本专利技术应用实例提供的基于IPMI的高可用集群系统的结构示意图;图3为在图2系统下故障处理的方法流程图;图4为本专利技术提供的高可用性系统中故障处理方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1为本专利技术提供的高可用性系统中的故障处理集群中节点的结构图。图1所示故障处理集群中每个节点包括:获取模块101,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;监测模块102,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;节点管理模块103,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。本专利技术提供的故障处理集群,通过对集群节点进行故障诊断,当集群中某节点心跳断开,对故障节点进行关机操作,确保故障节点完全关闭,防止高可用集群脑裂现象的产生。下面对本专利技术提供的故障处理集群进行说明:在检测出工作集群中有出现故障节点后,该故障节点处理的业务需要进行执行,则需要故障处理集群为该故障节点从工作集群中选择一个节点,代替出现故障的节点进行工作。为保证故障处理集群能够尽快选择出合适的节点,故障处理集群中节点的数量为2N+1个,其中一个节点为主节点,其余节点为从节点,N为正整数;所述主节点通知从节点从工作集群中选择代替所述出现故障的节点继续工作的节点;其余的从节点在接收到通知后,从工作集群中选择代替所述出现故障的节点继续工作的节点,并将结果发送给主节点;主节点根据从节点和主节点的选择结果,选择代替故障节点继续工作的节点。其中主节点可以将工作集群中节点选择次数最多的节点,作为代替故障节点继续工作的节点。工作集群中各节点自带的基板管理控制器(BaseboardManagementController,BMC)芯片和管理网,通过智能平台管理接口(IntelligentPlatformManagementInterface,IPMI)协议实现具体的虚拟机关机操作。当前绝大部分服务器主板都带有Bmc芯片和bmc网口,bmc芯片不依赖于服务器的处理器、BIOS或操作系统来工作,可谓非常地独立,是一个单独在服务器内运行的无代理管理子系统,只要服务器上电便可开始工作。bmc良好的自治特性便克服了以往基于操作系统的管理方本文档来自技高网...
高可用性系统中的故障处理方法和故障处理集群

【技术保护点】
一种高可用性系统中的故障处理集群,其特征在于,所述故障处理集群中每个节点包括:获取模块,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;监测模块,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;节点管理模块,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。

【技术特征摘要】
1.一种高可用性系统中的故障处理集群,其特征在于,所述故障处理集群中每个节点包括:获取模块,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;监测模块,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;节点管理模块,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。2.根据权利要求1所述的故障处理集群,其特征在于,所述故障处理集群有2N+1个节点,其中一个节点为主节点,其余节点为从节点,N为正整数;其中:所述主节点还包括:发送模块,用于通知从节点从工作集群中选择代替所述出现故障的节点继续工作的节点;确定模块,用于根据从节点和主节点的选择结果,确定代替故障节点继续工作的节点;其中,所述每个节点包括:选举模块,用于从工作集群中选择代替所述出现故障的节点继续工作的节点,并将选择结果发送给所述主节点。3.根据权利要求1所述的故障处理集群,其特征在于,所述节点管理模块包括:获取单元,用于获取出现故障节点的节点上基板管理控制器BMC的IP地址信息;发送单元,用于根据出现故障节点的节点上BMC的IP地址信息,向出现故障的节点的BMC发送关闭电源的指令。4.根据权利要求1至3任一所述的故障处理集群,其特征在于,所述每个节点还包括:告警模块,用于输出出现故障的节点的故障描述信息。5.根据权利要求1至3任一所述的故障处理集群,其特征在于,所述每个节点还包括:策略管理模块,用于...

【专利技术属性】
技术研发人员:杨勇亓开元
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1