基于仲裁服务器的集群裂脑预防方法和装置制造方法及图纸

技术编号：9826712 阅读：184 留言：0更新日期：2014-04-01 16:06

本发明专利技术公开一种基于仲裁服务器的高可用集群裂脑预防的方法和装置，属于计算机集群技术领域的高可用集群裂脑预防技术。为解决在集群心跳网络中断时，无法准确判别其他节点及其运行服务的状态，而出现无法接管服务或服务在两个节点同时运行问题。本发明专利技术实施例提供的方案包括：在心跳网络中断时，未运行服务的集群节点只有通过仲裁服务器获得相应服务锁，才可以进行服务接管，从而避免裂脑问题；服务停止后，仲裁服务器回收服务锁并允许其他集群节点重新抢占它；在多个节点同时抢占服务锁的过程中，只有一个节点抢占成功并能启动服务，防止了裂脑的发生。

全部详细技术资料下载

【技术实现步骤摘要】
基于仲裁服务器的集群裂脑预防方法和装置
本专利技术属于计算机集群
，适用于高可用性集群(High-availabilityCluster)，尤其涉及高可用集群裂脑预防

技术介绍
随着通信网络技术的飞速发展，电信、金融、电子政务等关键领域对服务器可用性的要求越来越高。高可用(HighAvailability，HA)集群技术可以有效减少业务系统因软件、硬件故障造成的服务停止时间。当前高可用集群系统主要通过网络或串口线等链路作为集群节点间通信的私有心跳网络，负责交换同步节点间的信息，监测集群中各个节点的运行情况。当服务运行节点故障，备份节点不能在一定时间内收到服务运行节点的心跳信息，则认为服务运行节点发生了故障并进行服务接管。但是当所有心跳链路发生故障，可能会导致服务运行节点和备份节点同时启动业务，造成集群裂脑(Split-Brain)和数据损坏。为了保障用户的业务可持续性及数据安全性，防止集群裂脑是必不可少的，目前通用的做法是将故障节点Fencing重启或将通过SCSI3保留技术对共享存储进行Fencing隔离。但专利技术人发现这些方法存在局限性，在实际环境中，经常不具备Fencing的硬件条件，而且备份节点上同样运行着其他重要的业务，客户不允许操作系统重启或共享存储被隔离。另外，基于共享磁阵的磁盘锁技术虽然能在局域网、带有共享磁阵的场合部分解决集群裂脑问题，但同样存在诸多局限性，比如需要重新划分共享磁阵分区、不支持无磁阵环境、不支持虚拟机环境、不支持广域网异地集群等。
技术实现思路
本专利技术实例目的在于提供一种基于仲裁服务器的集群裂脑预防方法和...
基于仲裁服务器的集群裂脑预防方法和装置

【技术保护点】
基于仲裁服务器的高可用集群裂脑预防方法与装置，其特征在于：集群内服务器节点启动服务前必须向仲裁服务器申请服务锁，未获得服务锁的集群节点不得启动服务；当节点死或心跳线故障时，未运行服务的子集群通过定期向仲裁服务器申请服务锁来决定是否接管服务；申请到服务锁则接管服务，未申请到服务锁则不予接管；从而避免服务在多个子集群内同时运行；注：裂脑状态是集群分裂成数个子集群，彼此失去联系并认为其他节点已死，并尝试从″已死节点″接管资源；从而导致服务在多个节点同时运行、共享存储数据损坏等一系列严重问题；1.1启动服务前需要取得服务锁，其特征在于：所述服务未运行节点在尝试接管服务开始，在t_giveup时间内定期向仲裁服务器申请服务锁，当仲裁服务器的相应服务锁处于unlocked状态时，服务未运行节点将抢占服务锁，并进行服务接管；1.2服务运行节点定期刷新服务锁，其特征在于：所述服务运行节点所在子集群选出一个通信节点和仲裁服务器通信，定期发送刷新服务锁消息到仲裁服务器，进行服务锁时间戳等的刷新；1.3服务故障会停止服务并释放服务锁，其特征在于：当服务在运行节点因故障而停止，服务将服务锁释放回仲裁服务器。该...

【技术特征摘要】
1.基于仲裁服务器的高可用集群裂脑预防方法，其特征在于：集群内服务器节点启动服务前必须向仲裁服务器申请服务锁，未获得服务锁的集群节点不得启动服务；当节点死或心跳线故障时，未运行服务的子集群通过定期向仲裁服务器申请服务锁来决定是否接管服务；申请到服务锁则接管服务，未申请到服务锁则不予接管；从而避免服务在多个子集群内同时运行；其中：裂脑状态是集群分裂成数个子集群，彼此失去联系并认为其他节点已死，并尝试从″已死节点″接管资源；从而导致服务在多个节点同时运行、共享存储数据损坏一系列严重问题；启动服务前需要取得服务锁，服务未运行节点在尝试接管服务开始，在t_giveup时间内定期向仲裁服务器申请服务锁，当仲裁服务器的相应服务锁处于unlocked状态时，服务未运行节点将抢占服务锁，并进行服务接管；服务运行节点定期刷新服务锁，所述服务运行节点所在子集群选出一个通信节点和仲裁服务器通信，定期发送刷新服务锁消息到仲裁服务器，进行服务锁时间戳的刷新；服务故障会停止服务并释放服务锁，当服务在运行节点因故障而停止，服务将服务锁释放回仲裁服务器；该子集群内部会选择一个备份节点尝试申请服务锁并接管服务，该备份节点向仲裁服务器申请服务锁成功后，将进行服务接管，并成为新的服务运行节点；若备份节点启动服务失败，将停止服务并再次释放服务锁；当服务运行子集群中的所有备份节点连续申请服务锁及接管服务失败，除非有新的节点状态变化事件，否则该子集群将不再尝试申请服务锁及接管该服务；集群与仲裁服务器中断联系的处理，服务运行子集群会选出一个...

【专利技术属性】
技术研发人员：蔡强，董春青，袁泉，
申请(专利权)人：广东新支点技术服务有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人