This application discloses a method for managing monitors in a CEPH cluster, which includes several main monitors and several backup monitors, and maintains corresponding stability metrics for each monitor. The method includes: adding an increment of the stability metrics of any monitor when monitoring the network state of any monitor from UP to DOWN; If a monitor is the main monitor, it is judged whether the stability measure of any monitor is greater than or equal to the first set threshold. If the result is yes, a backup monitor whose stability measure is less than or equal to the second set threshold is selected as the main monitor from several backup monitors, and the backup monitor is used as the backup monitor. Using the above method, according to the stability measurement of each monitor, adjust the role of each monitor, and select a more stable monitor as the main monitor, so as to enhance the stability of the CEPH cluster.
【技术实现步骤摘要】
一种ceph集群中监视器的管理方法及装置
本申请涉及数据存储
,尤其涉及一种ceph集群中监视器的管理方法及装置。
技术介绍
Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。在Ceph集群中,由若干个监视器(monitor)共同负责管理、维护和发布集群的状态信息;在若干个monitor中会选出一个领导者(leader),这些monitor中的其它普通参与选举成员(peon)在该leader的领导下,生成集群图(clustermap)的最新版本,然后将该最新版本发送至Ceph集群中的全体对象存储设备(Object-basedStorageDevice,OSD)以及客户端(Client)。OSD使用clustermap进行数据的维护,而Client使用clustermap进行数据的寻址。一般来说Monitor可单独部署在物理主机上,也可以将Monitor和存储节点均部署在该物理主机上。在进行leader选举时,先由monitor共同形成一个委员会(quorum),然后委员会的成员在内部选出leader。每个monitor作为quorum的一员,用于维护整个ceph集群的健康状况,维护着ceph集群中各项重要的信息,是ceph集群中的关键角色,Monitor的健康状况将直接影响整个ceph集群的稳定。在leader选举期间,Ceph是无法对外提供服务的,直到选举出leader,并在leader的带领下形成clustermap的master版本。若quorum中存在monitor重启、网络中存在震荡、延时等不稳定因素,会造成quo ...
【技术保护点】
1.一种ceph集群中监视器的管理方法,其特征在于,所述ceph集群的监视器包括若干主用监视器和若干备份监视器,并针对每一监视器维护有对应的稳定度量值,所述方法包括:在监测到任一监视器的网络状态由UP变为DOWN时,将所述任一监视器的稳定度量值累加一个增量;若所述任一监视器为主用监视器,则判断所述任一监视器的稳定度量值是否大于等于第一设定阈值;若判定结果为是,则从所述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器,并将所述任一监视器作为备份监视器,其中,所述第一设定阈值大于所述第二设定阈值。
【技术特征摘要】
1.一种ceph集群中监视器的管理方法,其特征在于,所述ceph集群的监视器包括若干主用监视器和若干备份监视器,并针对每一监视器维护有对应的稳定度量值,所述方法包括:在监测到任一监视器的网络状态由UP变为DOWN时,将所述任一监视器的稳定度量值累加一个增量;若所述任一监视器为主用监视器,则判断所述任一监视器的稳定度量值是否大于等于第一设定阈值;若判定结果为是,则从所述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器,并将所述任一监视器作为备份监视器,其中,所述第一设定阈值大于所述第二设定阈值。2.如权利要求1所述的方法,其特征在于,在将所述任一监视器的稳定度量值累加一个增量之后,所述方法还包括:启动所述任一监视器对应的衰减定时器,并在当前衰减周期内按预设的衰减函数对所述任一监视器的稳定度量值进行衰减。3.如权利要求2所述的方法,其特征在于,所述在当前衰减周期内按预设的衰减函数对所述任一监视器的稳定度量值进行衰减的步骤包括:在当前衰减周期内,以指定的衰减系数对所述任一监视器的稳定度量值进行衰减;其中,所述指定的衰减系数满足:在当前衰减周期结束时所述任一监视器的稳定度量值为在当前衰减周期开始时所述任一监视器的稳定度量值的一半。4.如权利要求2所述的方法,其特征在于,所述方法还包括:所述任一监视器处于当前衰减周期内,若监测到所述任一监视器的网络状态由UP变为DOWN,则将所述任一监视器的稳定度量值累加一个增量,并重新启动衰减定时器,以使得所述任一监视器进入下一衰减周期;在所述任一监视器的当前衰减周期结束时,重新启动衰减定时器,以使得所述任一监视器进入下一衰减周期。5.如权利要求2-4任一项所述的方法,其特征在于,所述方法还包括:若所述任一监视器衰减后的稳定度量值小于等于第三设定阈值,则将所述任一监视器的稳定度量值置为初始值,其中,所述第三设定阈值小于所述一个增量。6.如权利要求1-4任一项所述的方法,其特征在于,从所述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器的步骤包括:确定各备份监视器的稳定度量值,并判断是否存在稳定度量值小于等于的二设定阈值的备份监视器;若判定存在M个备份监视器的稳定度量值小于等于第二设定阈值,则从所述M个备份监视器中选择出稳定度量值最小的备份监视器作为主用监视器;若判定所述M个...
【专利技术属性】
技术研发人员:王彦斌,顾雷雷,
申请(专利权)人:新华三技术有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。