一种ceph集群中监视器的管理方法及装置制造方法及图纸

技术编号:20627992 阅读:25 留言:0更新日期:2019-03-20 17:34
本申请公开了一种ceph集群中监视器的管理方法,ceph集群的监视器包括若干主用监视器和若干备份监视器,并针对每一监视器维护有对应的稳定度量值,方法包括:在监测到任一监视器的网络状态由UP变为DOWN时,将该任一监视器的稳定度量值累加一个增量;若该任一监视器为主用监控器,则判断该任一监控器的稳定度量值是否大于等于第一设定阈值;若判定结果为是,则从若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器,并将该任一监视器作为备份监视器。采用上述方法,根据各监视器的稳定度量值,调整各监视器的角色,选择更稳定的监视器作为主用监视器,从而提升ceph集群的稳定性。

A Management Method and Device of Monitor in Ceph Cluster

This application discloses a method for managing monitors in a CEPH cluster, which includes several main monitors and several backup monitors, and maintains corresponding stability metrics for each monitor. The method includes: adding an increment of the stability metrics of any monitor when monitoring the network state of any monitor from UP to DOWN; If a monitor is the main monitor, it is judged whether the stability measure of any monitor is greater than or equal to the first set threshold. If the result is yes, a backup monitor whose stability measure is less than or equal to the second set threshold is selected as the main monitor from several backup monitors, and the backup monitor is used as the backup monitor. Using the above method, according to the stability measurement of each monitor, adjust the role of each monitor, and select a more stable monitor as the main monitor, so as to enhance the stability of the CEPH cluster.

【技术实现步骤摘要】
一种ceph集群中监视器的管理方法及装置
本申请涉及数据存储
,尤其涉及一种ceph集群中监视器的管理方法及装置。
技术介绍
Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。在Ceph集群中,由若干个监视器(monitor)共同负责管理、维护和发布集群的状态信息;在若干个monitor中会选出一个领导者(leader),这些monitor中的其它普通参与选举成员(peon)在该leader的领导下,生成集群图(clustermap)的最新版本,然后将该最新版本发送至Ceph集群中的全体对象存储设备(Object-basedStorageDevice,OSD)以及客户端(Client)。OSD使用clustermap进行数据的维护,而Client使用clustermap进行数据的寻址。一般来说Monitor可单独部署在物理主机上,也可以将Monitor和存储节点均部署在该物理主机上。在进行leader选举时,先由monitor共同形成一个委员会(quorum),然后委员会的成员在内部选出leader。每个monitor作为quorum的一员,用于维护整个ceph集群的健康状况,维护着ceph集群中各项重要的信息,是ceph集群中的关键角色,Monitor的健康状况将直接影响整个ceph集群的稳定。在leader选举期间,Ceph是无法对外提供服务的,直到选举出leader,并在leader的带领下形成clustermap的master版本。若quorum中存在monitor重启、网络中存在震荡、延时等不稳定因素,会造成quorum中反复发起leader选举。那么,整个monitor集群会一直处于选举状态,浪费资源,不利于ceph集群的稳定,并且无法对外提供服务。
技术实现思路
本申请提供一种ceph集群中监视器的管理方法及装置,用于解决相关技术中存在的由于监视器频繁出现异常而导致quorum中反复发起leader选举,从而导致ceph集群不稳定,无法对外提供服务的问题。为实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供了一种ceph集群中监视器的管理方法,上述ceph集群的监视器包括若干主用监视器和若干备份监视器,并针对每一监视器维护有对应的稳定度量值,上述方法包括:在监测到任一监视器的网络状态由UP变为DOWN时,将上述任一监视器的稳定度量值累加一个增量;若上述任一监视器为主用监控器,则判断上述任一监控器的稳定度量值是否大于等于第一设定阈值;若判定结果为是,则从上述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器,并将上述任一监视器作为备份监视器,其中,上述第一设定阈值大于上述第二设定阈值。可选地,在将上述任一监视器的稳定度量值累加一个增量之后,上述方法还包括:启动上述任一监视器对应的衰减定时器,并在当前衰减周期内按预设的衰减函数对上述任一监视器的稳定度量值进行衰减。可选地,上述在当前衰减周期内按预设的衰减函数对所述任一监视器对应的稳定度量值进行衰减的步骤包括:在当前衰减周期内,以指定的衰减系数对上述任一监视器的稳定度量值进行衰减;其中,上述指定的衰减系数满足:在当前衰减周期结束时上述任一监视器的稳定度量值为在当前衰减周期开始时上述任一监视器的稳定度量值的一半。可选地,上述方法还包括:上述任一监视器处于当前衰减周期内,若监测到上述任一监视器的网络状态由UP变为DOWN,则将上述任一监视器的稳定度量值累加一个增量,并重新启动衰减定时器,进入下一衰减周期;在上述任一监视器的当前衰减周期结束时,重新启动衰减定时器,以使得上述任一监视器进入下一衰减周期。可选地,上述方法还包括:若上述任一监视器衰减后的稳定度量值小于等于第三设定阈值,则将上述任一监视器的稳定度量值置为初始值,其中,上述第三设定阈值小于上述一个增量。可选地,从上述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器的步骤包括:确定各备份监视器的稳定度量值,并判断是否存在稳定度量值小于等于的二设定阈值的备份监视器;若判定存在M个备份监视器的稳定度量值小于等于第二设定阈值,则从上述M个备份监视器中选择出稳定度量值最小的备份监视器作为主用监视器;若判定上述M个备份监视器中存在N个备份监视器的稳定度量值均为最小值,则从上述N个备份监视器中随机选择一个备份监视器作为主用监控器。第二方面,本申请实施例提供了一种ceph集群中监视器的管理装置,上述ceph集群的监视器包括若干主用监视器和若干备份监视器,并针对每一监视器维护有对应的稳定度量值,上述装置包括:监测单元,用于在监测到任一监视器的网络状态由UP变为DOWN时,将上述任一监视器的稳定度量值累加一个增量;判断单元,用于在确定上述任一监视器为主用监控器时,判断上述任一监视器的稳定度量值是否大于等于第一设定阈值;选择单元,用于在判定结果为是时,从上述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器,并将上述任一监视器作为备份监视器,其中,上述第一设定阈值大于上述第二设定阈值。可选地,上述装置还包括度量调整单元,在将上述任一监视器的稳定度量值累加一个增量之后,上述度量调整单元用于:启动上述任一监视器对应的衰减定时器,并在当前衰减周期内按预设的衰减函数对上述任一监视器的稳定度量值进行衰减。可选地,上述在当前衰减周期内按预设的衰减函数对所述任一监视器的稳定度量值进行衰减时,上述度量调整单元用于:在当前衰减周期内,以指定的衰减系数对上述任一监视器的稳定度量值进行衰减;其中,上述指定的衰减系数满足:在当前衰减周期结束时上述任一监视器的稳定度量值为在当前衰减周期开始时上述任一监视器的稳定度量值的一半。可选地,上述任一监视器处于当前衰减周期内,若上述监测单元监测到上述任一监视器的网络状态由UP变为DOWN,则上述度量调整单元将上述任一监视器的稳定度量值累加一个增量,并重新启动衰减定时器,以使得上述任一监视器进入下一衰减周期;在上述任一监视器的衰减周期结束时,上述度量调整单元重新启动衰减定时器,以使得上述任一监视器进入下一衰减周期。可选地,上述度量调整单元还用于:若上述任一监视器衰减后的稳定度量值小于等于第三设定阈值,则将上述任一监视器的稳定度量值置为初始值,其中,上述第三设定阈值小于上述一个增量。可选地,从上述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器时,上述选择单元用于:确定各备份监视器的稳定度量值,并判断是否存在稳定度量值小于等于的二设定阈值的备份监视器;若判定存在M个备份监视器的稳定度量值小于等于第二设定阈值,则从上述M个备份监视器中选择出稳定度量值最小的备份监视器作为主用监视器;若判定所述M个备份监视器中存在N个备份监视器的稳定度量值均为最小值,则从上述N个备份监视器中随机选择一个备份监视器作为主用监控器。第三方面,本申请实施例还提供了一种计算设备,该计算设备包括:存储器,用于存储程序指令;处理器,用于调用上述存储器中存储的程序指令,按照获得的程序指令执行如上述第一方面中任一项上述的方法的步骤。第四方面,本申请实施例还提本文档来自技高网
...

【技术保护点】
1.一种ceph集群中监视器的管理方法,其特征在于,所述ceph集群的监视器包括若干主用监视器和若干备份监视器,并针对每一监视器维护有对应的稳定度量值,所述方法包括:在监测到任一监视器的网络状态由UP变为DOWN时,将所述任一监视器的稳定度量值累加一个增量;若所述任一监视器为主用监视器,则判断所述任一监视器的稳定度量值是否大于等于第一设定阈值;若判定结果为是,则从所述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器,并将所述任一监视器作为备份监视器,其中,所述第一设定阈值大于所述第二设定阈值。

【技术特征摘要】
1.一种ceph集群中监视器的管理方法,其特征在于,所述ceph集群的监视器包括若干主用监视器和若干备份监视器,并针对每一监视器维护有对应的稳定度量值,所述方法包括:在监测到任一监视器的网络状态由UP变为DOWN时,将所述任一监视器的稳定度量值累加一个增量;若所述任一监视器为主用监视器,则判断所述任一监视器的稳定度量值是否大于等于第一设定阈值;若判定结果为是,则从所述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器,并将所述任一监视器作为备份监视器,其中,所述第一设定阈值大于所述第二设定阈值。2.如权利要求1所述的方法,其特征在于,在将所述任一监视器的稳定度量值累加一个增量之后,所述方法还包括:启动所述任一监视器对应的衰减定时器,并在当前衰减周期内按预设的衰减函数对所述任一监视器的稳定度量值进行衰减。3.如权利要求2所述的方法,其特征在于,所述在当前衰减周期内按预设的衰减函数对所述任一监视器的稳定度量值进行衰减的步骤包括:在当前衰减周期内,以指定的衰减系数对所述任一监视器的稳定度量值进行衰减;其中,所述指定的衰减系数满足:在当前衰减周期结束时所述任一监视器的稳定度量值为在当前衰减周期开始时所述任一监视器的稳定度量值的一半。4.如权利要求2所述的方法,其特征在于,所述方法还包括:所述任一监视器处于当前衰减周期内,若监测到所述任一监视器的网络状态由UP变为DOWN,则将所述任一监视器的稳定度量值累加一个增量,并重新启动衰减定时器,以使得所述任一监视器进入下一衰减周期;在所述任一监视器的当前衰减周期结束时,重新启动衰减定时器,以使得所述任一监视器进入下一衰减周期。5.如权利要求2-4任一项所述的方法,其特征在于,所述方法还包括:若所述任一监视器衰减后的稳定度量值小于等于第三设定阈值,则将所述任一监视器的稳定度量值置为初始值,其中,所述第三设定阈值小于所述一个增量。6.如权利要求1-4任一项所述的方法,其特征在于,从所述若干备份监视器中选择一个稳定度量值小于等于第二设定阈值的备份监视器作为主用监视器的步骤包括:确定各备份监视器的稳定度量值,并判断是否存在稳定度量值小于等于的二设定阈值的备份监视器;若判定存在M个备份监视器的稳定度量值小于等于第二设定阈值,则从所述M个备份监视器中选择出稳定度量值最小的备份监视器作为主用监视器;若判定所述M个...

【专利技术属性】
技术研发人员:王彦斌顾雷雷
申请(专利权)人:新华三技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1