集群故障恢复时长估算方法、装置、设备及存储介质制造方法及图纸

技术编号:20242126 阅读:24 留言:0更新日期:2019-01-29 23:16
本发明专利技术公开了一种集群故障恢复时长估算方法,包括以下步骤:分别获取分布式存储集群发生故障前后的集群信息;基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;基于发生数据迁移的OSD与PG,估算集群故障恢复时长。本发明专利技术还公开了一种集群故障恢复时长估算装置、设备及计算机可读存储介质。本发明专利技术能够估算集群故障恢复时长,进而便于客户了解故障恢复情况。

【技术实现步骤摘要】
集群故障恢复时长估算方法、装置、设备及存储介质
本专利技术涉及存储集群
,尤其涉及一种集群故障恢复时长估算方法、装置、设备及计算机可读存储介质。
技术介绍
现有分布式存储集群通常都具有非常大的容量,磁盘是集群数据的最终载体,当集群出现磁盘情况变化时(比如添加、删除磁盘),集群原有的数据都会触发数据的迁移,进而导致集群不健康,特别是当集群已经存储的数据较多时,数据迁移需要花费一定时间,并且在数据迁移过程中还要占用集群性能,这就会对客户端的IO造成性能影响。现有技术比较难以判断集群存在磁盘变化情况下进行数据迁移所需要花费的时间,因而也就无法估量对客户端IO性能影响的时间长短,进而无法对客户端用户提供指导建议。
技术实现思路
本专利技术的主要目的在于提供一种集群故障恢复时长估算方法、装置、设备及计算机可读存储介质,旨在解决如何确定集群故障恢复时长的技术问题。为实现上述目的,本专利技术提供一种集群故障恢复时长估算方法,所述集群故障恢复时长估算方法包括以下步骤:分别获取分布式存储集群发生故障前后的集群信息;基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;基于发生数据迁移的OSD与PG,估算集群故障恢复时长。可选地,所述集群信息包括:集群的故障域级别、OSD信息以及PG信息,其中,集群的故障域级别包括主机级别、OSD级别,所述OSD信息包括OSD标识,PG信息包括PG标识。可选地,所述基于发生数据迁移的OSD与PG,估算集群故障恢复时长包括:基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;计算迁移所述数据量的时间,以估算集群故障恢复时长。可选地,所述集群信息还包括:集群当前的总数据量;所述基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量包括:基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。可选地,在所述计算迁移所述数据量的时间,以估算集群故障恢复时长的步骤之前,所述集群故障恢复时长估算方法还包括:对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;所述计算迁移所述数据量的时间,以估算集群故障恢复时长包括:根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。可选地,在所述计算迁移所述数据量的时间,以估算集群故障恢复时长的步骤之后,所述集群故障恢复时长估算方法还包括:基于估算的集群故障恢复时长进行告警,以告知集群发生故障后的预计恢复时间。进一步地,为实现上述目的,本专利技术还提供一种集群故障恢复时长估算装置,所述集群故障恢复时长估算装置包括:信息获取模块,用于分别获取分布式存储集群发生故障前后的集群信息;Crush算法模块,用于基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;结构比对模块,用于将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;时长估算模块,用于基于发生数据迁移的OSD与PG,估算集群故障恢复时长。可选地,所述集群信息包括:集群的故障域级别、OSD信息以及PG信息,其中,集群的故障域级别包括主机级别、OSD级别,所述OSD信息包括OSD标识,PG信息包括PG标识。可选地,所述时长估算模块包括:数据量计算单元,用于基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;时长估算单元,用于计算迁移所述数据量的时间,以估算集群故障恢复时长。可选地,所述集群信息还包括:集群当前的总数据量;所述数据量计算单元具体用于:基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。可选地,所述集群故障恢复时长估算装置还包括:性能计算模块;所述性能计算模块用于:对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;所述时长估算单元具体用于:根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。进一步地,为实现上述目的,本专利技术还提供一种集群故障恢复时长估算设备,所述集群故障恢复时长估算设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的集群故障恢复时长估算程序,所述集群故障恢复时长估算程序被所述处理器执行时实现如上述任一项所述的集群故障恢复时长估算方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有集群故障恢复时长估算程序,所述集群故障恢复时长估算程序被处理器执行时实现如上述任一项所述的集群故障恢复时长估算方法的步骤。本专利技术根据分布式存储集群的自身状态参数,采用Crush算法构建集群发生故障前后OSD与PG之间的拓扑结构变化,进而确定集群中发生数据迁移的OSD与PG,最后再基于集群中发生数据迁移的OSD与PG,估算出集群故障恢复时间,进而可对客户提供指导建议。附图说明图1为本专利技术集群故障恢复时长估算设备实施例方案涉及的设备硬件运行环境的结构示意图;图2为本专利技术集群故障恢复时长估算方法一实施例的流程示意图;图3为本专利技术集群故障恢复时长估算装置第一实施例的功能模块示意图;图4为图3中时长估算模块一实施例的功能模块示意图;图5为本专利技术集群故障恢复时长估算装置第二实施例的功能模块示意图;图6为本专利技术集群故障恢复时长估算装置第三实施例的功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种集群故障恢复时长估算设备。参照图1,图1为本专利技术集群故障恢复时长估算设备实施例方案涉及的设备硬件运行环境的结构示意图。如图1所示,该集群故障恢复时长估算设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard本文档来自技高网...

【技术保护点】
1.一种集群故障恢复时长估算方法,其特征在于,所述集群故障恢复时长估算方法包括以下步骤:分别获取分布式存储集群发生故障前后的集群信息;基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;基于发生数据迁移的OSD与PG,估算集群故障恢复时长。

【技术特征摘要】
1.一种集群故障恢复时长估算方法,其特征在于,所述集群故障恢复时长估算方法包括以下步骤:分别获取分布式存储集群发生故障前后的集群信息;基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;基于发生数据迁移的OSD与PG,估算集群故障恢复时长。2.如权利要求1所述的集群故障恢复时长估算方法,其特征在于,所述集群信息包括:集群的故障域级别、OSD信息以及PG信息,其中,集群的故障域级别包括主机级别、OSD级别,所述OSD信息包括OSD标识,PG信息包括PG标识。3.如权利要求2所述的集群故障恢复时长估算方法,其特征在于,所述基于发生数据迁移的OSD与PG,估算集群故障恢复时长包括:基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;计算迁移所述数据量的时间,以估算集群故障恢复时长。4.如权利要求3所述的集群故障恢复时长估算方法,其特征在于,所述集群信息还包括:集群当前的总数据量;所述基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量包括:基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。5.如权利要求4所述的集群故障恢复时长估算方法,其特征在于,在所述计算迁移所述数据量的时间,以估算集群故障恢复时长的步骤之前,所述集群故障恢复时长估算方法还包括:对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;所述计算迁移所述数据量的时间,以估算集群故障恢复时长包括:根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。6.如权利要求1所述的集群故障恢复时长估算方法,其特征在于,在所述计算迁移所述数据量的时间,以估算集群故障恢复时长的步骤之后,所述集群故障恢复时长估算方法还包括:基于估算的集群故障恢复时长进行告警,以告知集群发生故障后的预计恢...

【专利技术属性】
技术研发人员:张立新文静张晓伟
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1