The embodiment of this application relates to a fault handling method and equipment for nodes in a cluster. The method includes acquiring the fault detection topology information of the cluster, which includes the fault detection relationship among all the nodes in the cluster, acquiring the fault indication message, which is used to indicate that the detection node is not reachable to the detected node, and determining the sub-cluster in the cluster according to the fault detection topology information and the fault indication message. Nodes belonging to different sub-clusters are not reachable to each other, and the working cluster is determined according to the sub-clusters of the cluster. Through the embodiment of this application, the available nodes in the cluster can be retained to the greatest extent at a small cost, the number of available nodes in the cluster can be increased, the high availability can be ensured, the probability of cluster restart and business unavailability can be reduced, and the cost of failure recovery and business migration can be reduced.
【技术实现步骤摘要】
集群中节点的故障处理方法及设备
本申请涉及计算机
,尤其涉及一种集群中节点的故障处理方法及设备。
技术介绍
随着分布式计算和云计算技术在信息领域的发展,传统通信技术(communicationtechnology,CT)领域逐渐向信息通信技术(InformationCommunicationsTechnology,ICT)转型和发展。ICT是信息技术与通信技术相融合而形成的一个新的概念和新的
CT向ICT的转型和发展过程中,不可避免地会遇到很多复杂且困难的问题需要解决,如CT领域中复杂网络的运营使得网络成本居高不下,在CT向ICT转型过程中,解决复杂网络问题是一个非常重要和具有挑战的问题。为了推动CT向ICT的转型,SDN(SoftwareDefinedNetwork,软件定义网络)逐渐发展起来。SDN是Emulex网络一种新型网络创新架构,是网络虚拟化的一种实现方式。而SDN实现分布式或产品云化不可避免的需要解决分布式集群管理等问题。SDN业务对集群节点的通信能力要求较高,而Akka集群的去中心化架构保证了节点之间的通信能力。因此一些公司采用了Ak ...
【技术保护点】
1.一种集群中节点的故障处理方法,其特征在于,所述方法包括:获取所述集群的故障检测拓扑信息,所述集群中的一个节点被所述集群中的至少一个其他节点执行故障检测,所述故障检测拓扑信息包含所述集群中检测节点与被检测节点之间的故障检测关系;从所述检测节点接收故障指示消息,所述故障指示消息用于指示所述检测节点到被检测节点不可达;根据所述故障检测拓扑信息,以及所述故障指示消息,确定所述集群中的子集群,其中,属于不同子集群中的节点互不可达;根据所述集群的子集群,确定工作集群。
【技术特征摘要】
1.一种集群中节点的故障处理方法,其特征在于,所述方法包括:获取所述集群的故障检测拓扑信息,所述集群中的一个节点被所述集群中的至少一个其他节点执行故障检测,所述故障检测拓扑信息包含所述集群中检测节点与被检测节点之间的故障检测关系;从所述检测节点接收故障指示消息,所述故障指示消息用于指示所述检测节点到被检测节点不可达;根据所述故障检测拓扑信息,以及所述故障指示消息,确定所述集群中的子集群,其中,属于不同子集群中的节点互不可达;根据所述集群的子集群,确定工作集群。2.根据权利要求1所述的方法,其特征在于,所述根据所述集群的子集群,确定工作集群包括下述任意一种方式:确定节点数量最多的子集群为工作集群;确定包含种子节点,且节点数量最多的子集群为工作集群,其中,所述种子节点为预配置的节点,非种子节点通过所述种子节点加入集群;确定包含种子节点最多的子集群为工作集群;确定运行主业务的节点最多的子集群为工作集群;以及,基于所述子集群中的节点的健康状态或者可用资源状态确定工作集群,其中节点的健康状态基于所述节点对检测报文的响应时间确定。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述故障检测拓扑信息,以及所述故障指示消息,确定所述集群中的子集群包括:根据所述故障检测拓扑信息,确定节点之间的故障检测关系拓扑图,从所述故障检测关系拓扑图中删除所述故障指示消息所对应的边,确定删除后的故障检测关系拓扑图的连通子图,根据所述删除后的故障检测关系拓扑图的连通子图确定所述子集群。4.根据权利要求1或2所述的方法,其特征在于,所述根据所述故障检测拓扑信息,以及所述故障指示消息,确定所述集群中的子集群包括:根据所述故障检测拓扑信息,以及所述故障指示消息,确定所述集群中的故障节点和故障链路,从所述集群的网络拓扑图中删除所述故障节点和/或故障链路,确定删除后的网络拓扑图的连通子图,根据所述删除后的网络拓扑图的连通子图确定所述子集群,其中,所述网络拓扑图包含了所述集群的所有节点之间的网络连接信息。5.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括,确定所述工作集群中的不可达节点中被最多故障指示消息指向的不可达节点为要删除的节点,所述不可达节点为故障指示消息所指向的被检测节点;向所述工作集群中其他节点发送第一指示消息,所述第一指示消息用于指示所述要删除的节点。6.根据权利要求5所述的方法,其特征在于,所述确定所述工作集群中的不可达节点中故障指示消息指向最多的不可达节点为要删除的节点包括:确定所述工作集群中的不可达节点中被最多故障指示消息指向的不可达节点,且健康状态最差的一个为要删除的节点。7.根据权利要求1-6任意一项所述的方法,其特征在于,所述获取所述集群的故障检测拓扑信息具体包括:接收所述集群中其他节点发送的故障检测关系,根据接收到的故障检测关系确定所述故障检测拓扑信息;或者,基于预设规则推算所述故障检测拓扑信息。8.一种故障处理设备,所述设备适用于集群中,其特征在于,包括:第一获取单元...
【专利技术属性】
技术研发人员:曾艳,于璠,王胤文,帅煜韬,岳晓明,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。