一种分布式存储集群时间调整方法、装置、设备及介质制造方法及图纸

技术编号:37978627 阅读:9 留言:0更新日期:2023-06-30 09:53
本发明专利技术属于分布式集群同步时间技术领域,具体提供一种分布式存储集群时间调整方法、装置、设备及介质,所述方法包括如下步骤:触发时间变更后,对集群整体以及集群中的每个节点进行健康检查;当健康检查结果正常时,设置集群进入维护模式;自动获取目标时间并计算目标时间与当前时间的时间差;根据所述时间差与零的比较结果判定时间改变的方向;计算所述时间差与默认的时间调整步长的比值作为倍数,并根据所述倍数设置调整次数,结合判定的时间改变方向进行智能对时;对时完成,判断集群各节点时间一致后,设置集群退出维护模式变更结束。自动完成分布式存储集群时间的智能调整,减少了大量人力成本。大量人力成本。大量人力成本。

【技术实现步骤摘要】
一种分布式存储集群时间调整方法、装置、设备及介质


[0001]本专利技术涉及分布式集群同步时间
,具体涉及一种分布式存储集群时间调整方法、装置、设备及介质。

技术介绍

[0002]分布式存储采用全对称、去中心化的分布式存储架构,单一集群同时为客户提供文件、块、对象、大数据四种存储服务,极大提高存储利用率和易管理性。文件存储服务支持多种操作系统的文件数据共享与访问,提供分级存储、增强ACL、配额、回收站等功能,满足客户在不同场景中的数据存储需求。块存储服务提供快照、克隆、精简配置等功能,为虚拟化,云计算场景提供灵活的存储空间和数据可靠性保障。对象存储服务:兼容S3/Swift/SMTP等协议并提供多种SDK,满足不同场景大数据业务的数据备份以及数据检索需求。大数据存储服务:支持HDFS API大数据存储接口,有效解决Hadoop平台三副本数据存储模式的空间浪费问题,可实现跨平台的数据共享访问,满足不同应用的需求。
[0003]分布式存储因其自身架构特点,对集群内各节点时间一致性以及集群时间调整有着苛刻的要求:1)集群内节点间的时间限制:节点与主monitor时间差默认超过0.05秒(50毫秒)即触发时钟不一致告警;2)集群修改时间的相关限制:节点ctdb超时限制为6秒;Osd间默认心跳超时限制为60秒;MDS与lib session默认超时限制为60秒;MDS与monitor心跳间隔默认60秒;集群时间调整幅度若超过上述限制,则容易触发集群异常,甚至业务也会受到影响,故为安全起见,默认每次时间调整不能超过6秒。
[0004]若发现集群时间与实际时间不一致,需要调整修改集群时间或修改集群NTP server时,需要在存储底层进行大量的人工检查和命令操作,包括维护参数、时延参数设置、多次对时、多次调整、异常情况诊断及处理等,这样不仅耗费人力,而且也极易出现误操作导致集群异常甚至业务异常的情况;对于单节点停机维护更换主板、内存等场景,会有概率触发RTC时间异常,节点启动后出现时钟跳变。

技术实现思路

[0005]针对分布式存储集群时间调整繁琐易出错、单节点维护易跳变问题,本专利技术提供一种分布式存储集群时间调整方法、装置、设备及介质。
[0006]第一方面,本专利技术技术方案提供一种分布式存储集群时间调整方法,包括如下步骤:
[0007]触发时间变更后,对集群整体以及集群中的每个节点进行健康检查;
[0008]当健康检查结果正常时,设置集群进入维护模式;
[0009]自动获取目标时间并计算目标时间与当前时间的时间差;
[0010]根据所述时间差与零的比较结果判定时间改变的方向;
[0011]计算所述时间差与默认的时间调整步长的比值作为倍数,并根据所述倍数设置调整次数,结合判定的时间改变方向进行智能对时;
[0012]对时完成判断集群各节点时间一致后,设置集群退出维护模式变更结束。
[0013]作为本专利技术技术方案的优选,对集群整体以及集群中的每个节点进行健康检查的步骤之前包括:
[0014]接收输入的外部NTP服务器的地址,自动获取外部NTP服务器的时间与集群当前时间进行比对,当外部NTP服务器的时间与集群当前时间不一致时,触发时间变更;
[0015]或,使用集群原有NTP服务器,当原有NTP服务器输出需要调整时间的提示信息时,触发时间变更。
[0016]作为本专利技术技术方案的优选,对集群整体以及集群中的每个节点进行健康检查的步骤包括:
[0017]对集群整体健康状态、授权情况、集群当前后台任务、性能数据进行检查;
[0018]对集群中每个节点的健康状态检查;
[0019]检查集群当前NTP配置是否为跳变模式;
[0020]对节点异常重启RTC时间是否配置自动同步进行检查;
[0021]当集群整体状态正常,授权情况是正式授权,当前是业务低峰时段,后台任务及性能数据在对应设定阈值范围内,各节点软件服务运行正常软件版本一致并无硬件部件告警,每个节点系统资源不高于设定百分比,集群当前NTP配置为跳变模式且节点异常重启RTC时间配置自动同步时,判定健康检查结果正常;否则判定健康检查结果异常。在这里,低峰时段指的是业务量低于设定阈值的时段。
[0022]作为本专利技术技术方案的优选,设置集群进入维护模式的步骤包括:
[0023]将集群设置为无输出状态;
[0024]将集群数据库组件心跳间隔调整为第一阈值;
[0025]设置停止所有节点NTP服务。
[0026]作为本专利技术技术方案的优选,对集群整体以及集群中的每个节点进行健康检查的步骤之后还包括:
[0027]当健康检查结果异常时,将健康检查出的异常点按照风险高低进行优先级排序,并基于健康检查的标准针对各异常点选择进行自动修正、修正建议、忽略该异常、重新检查或终止变更的处理过程;
[0028]当执行完成自动修正、根据修正建议调整或忽略该异常的处理后,进行重新检查,然后执行步骤:对集群整体以及集群中的每个节点进行健康检查;
[0029]当需要先终止变更后再进行时间调整变更的情况时,执行终止变更;然后设置集群退出维护模式。
[0030]作为本专利技术技术方案的优选,根据所述时间差与零的比较结果判定时间改变的方向的步骤包括:将所述时间差与零进行比较;若所述时间差大于零,则向未来改时间;若所述时间差小于零,则往过去改时间。
[0031]作为本专利技术技术方案的优选,计算所述时间差与默认的时间调整步长的比值作为倍数,并根据所述倍数设置调整次数,结合判定的时间改变方向进行智能对时的步骤包括:计算所述时间差的绝对值与默认的时间调整步长的比值作为倍数;若所述倍数为整数,则调整次数N等于所述倍数;按照默认的时间调整步长向未来方向或往过去方向调整时间;每执行完一次时间调整,在集群上打上调整一次的标签,同时N=N

1,并打印相关日志;自动
进入集群健康检查,确认集群正常后进行下一次时间调整,直至N=0。
[0032]若所述倍数不为整数,则调整次数N等于所述倍数加1;按照默认的时间调整步长向未来方向或往过去方向调整时间;每执行完一次时间调整,在集群上打上调整一次的标签,同时N=N

1,并打印相关日志;自动进入集群健康检查,确认集群正常后进行下一次时间调整,直至N=1;N=1时,将时间差的绝对值除以默认的时间调整步长得到的余数作为新的时间调整步长;按照新的时间调整步长向未来方向或往过去方向执行一次时间调整。
[0033]作为本专利技术技术方案的优选,该方法还包括:变更结束后,自动生成包括变更开始时间、变更目的时间、健康检查情况、变更执行次数及每次执行耗时和变更结果的变更报告。
[0034]第二方面,本专利技术技术方案还提供一种分布式存储集群时间调整装置,包括变更触发模块、健康检查模块、维护模式模块、智能对时模块、时间检查模块;
[0035]变更触发模块,用于接本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式存储集群时间调整方法,其特征在于,包括如下步骤:触发时间变更后,对集群整体以及集群中的每个节点进行健康检查;当健康检查结果正常时,设置集群进入维护模式;自动获取目标时间并计算目标时间与当前时间的时间差;根据所述时间差与零的比较结果判定时间改变的方向;计算所述时间差与默认的时间调整步长的比值作为倍数,并根据所述倍数设置调整次数,结合判定的时间改变方向进行智能对时;对时完成,判断集群各节点时间一致后,设置集群退出维护模式变更结束。2.根据权利要求1所述的分布式存储集群时间调整方法,其特征在于,对集群整体以及集群中的每个节点进行健康检查的步骤之前包括:接收输入的外部时间服务器的地址,自动获取外部时间服务器的时间与集群当前时间进行比对,当外部时间服务器的时间与集群当前时间不一致时,触发时间变更;或,使用集群原有时间服务器,当原有时间服务器输出需要调整时间的提示信息时,触发时间变更。3.根据权利要求1所述的分布式存储集群时间调整方法,其特征在于,对集群整体以及集群中的每个节点进行健康检查的步骤包括:对集群整体健康状态、授权情况、集群当前后台任务、性能数据进行检查;对集群中每个节点的健康状态检查;检查集群当前时间服务配置是否为跳变模式;对节点异常重启实时时钟是否配置自动同步进行检查;当集群整体状态正常、授权情况是正式授权、当前是业务低峰时段、后台任务及性能数据在对应设定阈值范围内、各节点软件服务运行正常软件版本一致并无硬件部件告警、每个节点系统资源不高于设定百分比、集群当前时间服务配置为跳变模式且节点异常重启实时时钟配置为自动同步时,判定健康检查结果正常;否则判定健康检查结果异常。4.根据权利要求3所述的分布式存储集群时间调整方法,其特征在于,设置集群进入维护模式的步骤包括:将集群设置为无输出状态;将集群数据库组件心跳间隔调整为第一阈值;设置停止所有节点时间服务。5.根据权利要求4所述的分布式存储集群时间调整方法,其特征在于,对集群整体以及集群中的每个节点进行健康检查的步骤之后还包括:当健康检查结果异常时,将健康检查出的异常点按照风险高低进行优先级排序,并基于健康检查的标准针对各异常点选择进行自动修正、修正建议、忽略该异常、重新检查或终止变更的处理过程;当执行完成自动修正、根据修正建议调整或忽略该异常的处理后,进行重新检查,然后执行步骤:对集群整体以及集群中的每个节点进行健康检查;当需要先终止变更后再进行时间调整变更的情况时,执行终止变更;然后设置集群退出维护模式。6.根据权利要求2所述的分布式存储集群时间调整方法,其特征在于,时间改变方向包
括向未来改时间和往过去改时间;计算所述时间差与默认的时间调整步长的比值作为倍数,并根据所述倍数设置调整次数,结合判定的时间改变方向进行...

【专利技术属性】
技术研发人员:范荣松陈彬
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1