集群故障恢复时长估算方法、装置、设备及存储介质制造方法及图纸

技术编号：20242126 阅读：24 留言：0更新日期：2019-01-29 23:16

本发明专利技术公开了一种集群故障恢复时长估算方法，包括以下步骤：分别获取分布式存储集群发生故障前后的集群信息；基于所述集群信息，分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构；将集群发生故障前后对应的OSD与PG的拓扑结构进行比对，确定发生数据迁移的OSD与PG；基于发生数据迁移的OSD与PG，估算集群故障恢复时长。本发明专利技术还公开了一种集群故障恢复时长估算装置、设备及计算机可读存储介质。本发明专利技术能够估算集群故障恢复时长，进而便于客户了解故障恢复情况。

全部详细技术资料下载

【技术实现步骤摘要】
集群故障恢复时长估算方法、装置、设备及存储介质
本专利技术涉及存储集群
，尤其涉及一种集群故障恢复时长估算方法、装置、设备及计算机可读存储介质。
技术介绍
现有分布式存储集群通常都具有非常大的容量，磁盘是集群数据的最终载体，当集群出现磁盘情况变化时(比如添加、删除磁盘)，集群原有的数据都会触发数据的迁移，进而导致集群不健康，特别是当集群已经存储的数据较多时，数据迁移需要花费一定时间，并且在数据迁移过程中还要占用集群性能，这就会对客户端的IO造成性能影响。现有技术比较难以判断集群存在磁盘变化情况下进行数据迁移所需要花费的时间，因而也就无法估量对客户端IO性能影响的时间长短，进而无法对客户端用户提供指导建议。
技术实现思路
本专利技术的主要目的在于提供一种集群故障恢复时长估算方法、装置、设备及计算机可读存储介质，旨在解决如何确定集群故障恢复时长的技术问题。为实现上述目的，本专利技术提供一种集群故障恢复时长估算方法，所述集群故障恢复时长估算方法包括以下步骤：分别获取分布式存储集群发生故障前后的集群信息；基于所述集群信息，分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构；将集群发生故障前后对应的OSD与PG的拓扑结构进行比对，确定发生数据迁移的OSD与PG；基于发生数据迁移的OSD与PG，估算集群故障恢复时长。可选地，所述集群信息包括：集群的故障域级别、OSD信息以及PG信息，其中，集群的故障域级别包括主机级别、OSD级别，所述OSD信息包括OSD标识，PG信息包括PG标识。可选地，所述基于发生数据迁移的OSD与PG，估算...

【技术保护点】
1.一种集群故障恢复时长估算方法，其特征在于，所述集群故障恢复时长估算方法包括以下步骤：分别获取分布式存储集群发生故障前后的集群信息；基于所述集群信息，分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构；将集群发生故障前后对应的OSD与PG的拓扑结构进行比对，确定发生数据迁移的OSD与PG；基于发生数据迁移的OSD与PG，估算集群故障恢复时长。

【技术特征摘要】
1.一种集群故障恢复时长估算方法，其特征在于，所述集群故障恢复时长估算方法包括以下步骤：分别获取分布式存储集群发生故障前后的集群信息；基于所述集群信息，分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构；将集群发生故障前后对应的OSD与PG的拓扑结构进行比对，确定发生数据迁移的OSD与PG；基于发生数据迁移的OSD与PG，估算集群故障恢复时长。2.如权利要求1所述的集群故障恢复时长估算方法，其特征在于，所述集群信息包括：集群的故障域级别、OSD信息以及PG信息，其中，集群的故障域级别包括主机级别、OSD级别，所述OSD信息包括OSD标识，PG信息包括PG标识。3.如权利要求2所述的集群故障恢复时长估算方法，其特征在于，所述基于发生数据迁移的OSD与PG，估算集群故障恢复时长包括：基于发生数据迁移的OSD与PG，计算集群中平均每个OSD发生迁移的数据量；计算迁移所述数据量的时间，以估算集群故障恢复时长。4.如权利要求3所述的集群故障恢复时长估算方法，其特征在于，所述集群信息还包括：集群当前的总数据量；所述基于发生数据迁移的OSD与PG，计算集群中平均每个OSD发生迁移的数据量包括：基于发生数据迁移的OSD与PG，确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数；根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数，计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数，以及根据集群当前的总数据量计算平均每个PG所管理的数据量；根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量，计算集群中平均每个OSD发生迁移的数据量。5.如权利要求4所述的集群故障恢复时长估算方法，其特征在于，在所述计算迁移所述数据量的时间，以估算集群故障恢复时长的步骤之前，所述集群故障恢复时长估算方法还包括：对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据；计算各抽样数据的算术平均数，并将计算结果作为集群中OSD的平均读写性能；所述计算迁移所述数据量的时间，以估算集群故障恢复时长包括：根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能，计算迁移所述数据量的时间，以估算集群故障恢复时长。6.如权利要求1所述的集群故障恢复时长估算方法，其特征在于，在所述计算迁移所述数据量的时间，以估算集群故障恢复时长的步骤之后，所述集群故障恢复时长估算方法还包括：基于估算的集群故障恢复时长进行告警，以告知集群发生故障后的预计恢...

【专利技术属性】
技术研发人员：张立新，文静，张晓伟，
申请(专利权)人：深信服科技股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人