高可用性系统中的故障处理方法和故障处理集群技术方案

技术编号:16177725 阅读:50 留言:0更新日期:2017-09-09 05:11
本发明专利技术公开了一种高可用性系统中的故障处理方法和故障处理集群,所述故障处理集群中每个节点包括:获取模块,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;监测模块,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;节点管理模块,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。

【技术实现步骤摘要】
高可用性系统中的故障处理方法和故障处理集群
本专利技术涉及通信
,尤指一种高可用性系统中的故障处理方法和故障处理集群。
技术介绍
高可用性集群(HighAvailable,HA)是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务的不中断或短暂中断。但在高可用(HA)系统中,当联系2个节点之间的联系断开时,原本为一整体、动作协调的HA系统,就分裂成为2个独立的个体。由于相互失去了联系,都会认为是对方出了故障。两个节点上的HA软件像“裂脑人”一样,争抢共享资源、争起应用服务,就会发生严重后果,比如,共享资源被瓜分、2边服务都起不来了;或者2个节点服务都起来了,但同时读写共享存储,导致数据损坏,比如hdfs文件系统元数据出错等。因此,在高可用(HA)系统中,当联系2个节点之间的联系断开时,如何对集群中节点进行管理以保证业务正常运行是亟待解决的问题。本文档来自技高网...
高可用性系统中的故障处理方法和故障处理集群

【技术保护点】
一种高可用性系统中的故障处理集群,其特征在于,所述故障处理集群中每个节点包括:获取模块,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;监测模块,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;节点管理模块,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。

【技术特征摘要】
1.一种高可用性系统中的故障处理集群,其特征在于,所述故障处理集群中每个节点包括:获取模块,用于获取高可用性系统中工作集群中的管理对象,其中所述管理对象为工作集群的节点;监测模块,用于根据预先设置的监测策略,对所述管理对象的运行状态进行监测;节点管理模块,用于当管理对象中有节点不能因出现故障不能处理业务时,通知出现故障的节点下线。2.根据权利要求1所述的故障处理集群,其特征在于,所述故障处理集群有2N+1个节点,其中一个节点为主节点,其余节点为从节点,N为正整数;其中:所述主节点还包括:发送模块,用于通知从节点从工作集群中选择代替所述出现故障的节点继续工作的节点;确定模块,用于根据从节点和主节点的选择结果,确定代替故障节点继续工作的节点;其中,所述每个节点包括:选举模块,用于从工作集群中选择代替所述出现故障的节点继续工作的节点,并将选择结果发送给所述主节点。3.根据权利要求1所述的故障处理集群,其特征在于,所述节点管理模块包括:获取单元,用于获取出现故障节点的节点上基板管理控制器BMC的IP地址信息;发送单元,用于根据出现故障节点的节点上BMC的IP地址信息,向出现故障的节点的BMC发送关闭电源的指令。4.根据权利要求1至3任一所述的故障处理集群,其特征在于,所述每个节点还包括:告警模块,用于输出出现故障的节点的故障描述信息。5.根据权利要求1至3任一所述的故障处理集群,其特征在于,所述每个节点还包括:策略管理模块,用于...

【专利技术属性】
技术研发人员:杨勇亓开元
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1