触发RAID阵列重建的方法及装置制造方法及图纸

技术编号:15878509 阅读:57 留言:0更新日期:2017-07-25 16:29
本申请提供一种触发RAID阵列重建的方法及装置,所述方法应用于存储设备的磁盘子系统,可包括:向各物理磁盘下发IO读写指令;基于各物理磁盘在预设统计周期内返回的IO读写指令的响应时间,分别计算各物理磁盘的平均响应时间,并分别判断各非故障物理磁盘的物理磁盘的平均响应时间是否达到与其型号对应的磁盘异常响应时间阈值;将平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘标记为故障物理磁盘,如果所述故障物理磁盘属于RAID阵列,则通知所述故障物理磁盘所属的RAID阵列对所述故障物理磁盘进行重建。使用本方案可以有效地提高判断故障物理磁盘的准确性。

Method and device for triggering RAID array reconstruction

The invention provides a method and device for triggering RAID array reconstruction, the disk subsystem, the method is applied to the storage device may include: to each physical disk under IO to read and write instructions; response time of each physical disk in the preset statistical period returned IO read and write instructions based on the average response time are calculated the physical disk, and the disk respectively determine the average response time of the non physical disk fault physical disk is reached with the model corresponding to the abnormal response time threshold; the average response time and to mark the physical disk disk model corresponding to the abnormal response time threshold for physical disk failure, if the physical disk fault belongs to the RAID array RAID, notice the fault array physical disk belongs to the reconstruction of the physical disk fault. The accuracy of the fault physical disk can be effectively improved by using the program.

【技术实现步骤摘要】
触发RAID阵列重建的方法及装置
本申请涉及计算机通信领域,尤其涉及触发RAID阵列重建的方法及装置。
技术介绍
RAID阵列(RedundantArrayofIndependentDisks,独立磁盘冗余阵列)是一种把多块独立的磁盘(物理磁盘)按不同的方式组合起来形成一个磁盘组(逻辑磁盘),从而提供比单个磁盘更高的存储性能和数据可靠性的技术。在计算机通信领域,通常会使用RAID阵列技术对磁盘中数据进行冗余保护,当有数据写入时,根据RAID阵列算法把数据拆分到多个成员磁盘中。根据RAID阵列级别不同,可容忍1块或多块磁盘故障或者离线,当检测到磁盘IO错误或者磁盘离线时,可使用专用热备盘或者全局热备盘进行重建,恢复RAID阵列数据冗余性。然而,在现有的触发RAID阵列进行重建的方法中,仅考虑了磁盘IO错误和磁盘离线的情况,没有考虑磁盘老化后响应时间变慢导致业务中断的情况,因此如何在磁盘响应慢的情况下触发RAID阵列重建成为亟待解决的问题。
技术实现思路
有鉴于此,本申请提供一种触发RAID阵列重建的方法及装置,用以提高判断故障物理磁盘的准确性。具体地,本申请是通过如下技术方案实现的:根据本申请的第一方面,提供一种触发RAID阵列重建的方法,所述方法应用于存储设备的磁盘子系统,所述存储设备包括至少一个RAID阵列,所述RAID阵列包括若干个物理磁盘,所述方法包括:根据各相关子系统的IO读写请求向各物理磁盘下发IO读写指令;基于各物理磁盘在预设统计周期内返回的IO读写指令的响应时间,分别计算各物理磁盘的平均响应时间;分别判断各非故障物理磁盘的物理磁盘的平均响应时间是否达到与其型号对应的磁盘异常响应时间阈值;其中,不同型号的物理磁盘的磁盘异常响应时间阈值不同;将平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘标记为故障物理磁盘,如果所述故障物理磁盘属于RAID阵列,则通知所述故障物理磁盘所属的RAID阵列对所述故障物理磁盘进行重建。根据本申请的第二方面,一种触发RAID阵列重建的装置,所述装置应用于存储设备的磁盘子系统,所述存储设备包括至少一个RAID阵列,所述RAID阵列包括若干个物理磁盘,所述装置包括:下发单元,用于根据各相关子系统的IO读写请求向各物理磁盘下发IO读写指令;计算单元,用于基于各物理磁盘在预设统计周期内返回的IO读写指令的响应时间,分别计算各物理磁盘的平均响应时间;判断单元,用于分别判断各非故障物理磁盘的物理磁盘的平均响应时间是否达到与其型号对应的磁盘异常响应时间阈值;其中,不同型号的物理磁盘的磁盘异常响应时间阈值不同;标记单元,用于将平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘标记为故障物理磁盘,如果所述故障物理磁盘属于RAID阵列,则通知所述故障物理磁盘所属的RAID阵列对所述故障物理磁盘进行重建。在本申请提出一种触发RAID阵列重建的方法中,一方面,由于磁盘子系统可以基于各物理磁盘的平均响应时间,将平均响应时间达到与其型号对应的磁盘异常响应时间阈值的非故障物理磁盘的物理磁盘标记为故障物理磁盘,并通知该故障物理磁盘所属的RAID阵列进行重建,从而实现了基于物理磁盘的IO读写指令的响应时间来触发对该物理磁盘所属的RAID阵列的重建。另一方面,由于各物理磁盘的响应时间可以与其型号对应的磁盘异常响应时间阈值进行比较,从而使得在判断物理磁盘的平均响应时间是否异常时,综合考虑该磁盘上所有业务下发的IO,比如RAID下发的IO、磁盘检测任务下发的IO等,从而有效地提高磁盘子系统标记出的故障物理磁盘的准确率。附图说明图1是本申请一示例性实施例示出的一种触发RAID阵列重建的方法的流程图;图2是本申请一示例性实施例示出的一种触发RAID阵列重建的装置所在设备的硬件结构图;图3是本申请一示例性实施例示出的一种触发RAID阵列重建的装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。RAID阵列是一种把多块独立的磁盘(物理磁盘)按不同的方式组合起来形成一个磁盘组(逻辑磁盘),从而提供比单个磁盘更高的存储性能和数据可靠性的技术。在计算机通信领域,通常会使用RAID阵列技术对磁盘中数据进行冗余保护,当有数据写入时,根据RAID阵列算法把数据拆分到多个成员磁盘中。根据RAID阵列级别不同,可容忍1块或多块磁盘故障或者离线,当检测到磁盘IO错误或者磁盘离线时,可使用专用热备盘或者全局热备盘进行重建,恢复RAID阵列数据冗余性。在相关的RAID阵列触发重建的方法中,当RAID子系统接收到成员磁盘返回的IO读写错误,并且判断该错误无法恢复时,可以标记该成员磁盘故障,并触发该成员磁盘所属的RAID阵列重建。此外,当RAID子系统接收到成员磁盘离线的通知消息时,也可以触发该离线的成员磁盘所属的RAID阵列重建。在重建时,可以使用热备盘重建故障盘或者离线盘,RAID子系统可以按照RAID阵列算法计算出热备盘中对应条带的数据,恢复该故障磁盘所属的RAID阵列的冗余性。由于磁盘是机械和电子结合的装置,受到器件老化、环境等因素的影响,在实际应用中可能出现磁盘IO不返错但是响应时间变慢的现象,将导致上层应用读写该磁盘对应的RAID阵列时,响应时间变慢的磁盘上IO返回慢于其他磁盘,上层应用的性能出现波动或IO超时。具体表现为,在将RAID阵列上创建的LUN(逻辑单元号)分配给前端应用服务器进行持续读写时,可能出现LUN的性能有很大的波动甚至IO超时业务中断的情况,但是开发人员在对该LUN性能大波动的现象进行排查时,发现该RAID阵列状态正常,磁盘状态也正常,成员磁盘也未返回IO读写错误。进一步排查,虽然该RAID阵列的成员磁盘的接口相同,转速相同,但是部分成员磁盘上返回的IO读写响应的响应时间明显长于该RAID阵列中其他的成员磁盘。在拔走IO读写响应时间长的成员磁盘,使用热备盘代替IO读写响应时间长的成员磁盘后,该RAID阵列性能和LUN性能恢复正常。综上可知,由于成员磁盘的IO读写响应时间长会严重影响该成员磁盘所属的RAID阵列和该RAID阵列上创建的LUN的性能,出现性能波动,极端情况下出现IO超时可能导致业务中断。然而,本文档来自技高网...
触发RAID阵列重建的方法及装置

【技术保护点】
一种触发RAID阵列重建的方法,其特征在于,所述方法应用于存储设备的磁盘子系统,所述存储设备包括至少一个RAID阵列,所述RAID阵列包括若干个物理磁盘,所述方法包括:根据各相关子系统的IO读写请求向各物理磁盘下发IO读写指令;基于各物理磁盘在预设统计周期内返回的IO读写指令的响应时间,分别计算各物理磁盘的平均响应时间;分别判断各非故障物理磁盘的物理磁盘的平均响应时间是否达到与其型号对应的磁盘异常响应时间阈值;其中,不同型号的物理磁盘的磁盘异常响应时间阈值不同;将平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘标记为故障物理磁盘,如果所述故障物理磁盘属于RAID阵列,则通知所述故障物理磁盘所属的RAID阵列对所述故障物理磁盘进行重建。

【技术特征摘要】
1.一种触发RAID阵列重建的方法,其特征在于,所述方法应用于存储设备的磁盘子系统,所述存储设备包括至少一个RAID阵列,所述RAID阵列包括若干个物理磁盘,所述方法包括:根据各相关子系统的IO读写请求向各物理磁盘下发IO读写指令;基于各物理磁盘在预设统计周期内返回的IO读写指令的响应时间,分别计算各物理磁盘的平均响应时间;分别判断各非故障物理磁盘的物理磁盘的平均响应时间是否达到与其型号对应的磁盘异常响应时间阈值;其中,不同型号的物理磁盘的磁盘异常响应时间阈值不同;将平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘标记为故障物理磁盘,如果所述故障物理磁盘属于RAID阵列,则通知所述故障物理磁盘所属的RAID阵列对所述故障物理磁盘进行重建。2.根据权利要求1所述的方法,其特征在于,所述与其型号对应的磁盘异常响应时间阈值为该型号的物理磁盘的平均响应时间与预设的异常响应时间加权值的乘积;所述分别判断各非故障物理磁盘的物理磁盘的平均响应时间是否达到与其型号对应的磁盘异常响应时间阈值,包括:分别计算各型号的平均响应时间不为零的非故障物理磁盘的物理磁盘数目;分别累加各型号的若干个非故障物理磁盘的物理磁盘的平均响应时间;分别将各型号的若干个非故障物理磁盘的物理磁盘累加得到的平均响应时间除以与其型号对应的平均响应时间不为零的非故障物理磁盘的物理磁盘数目,得到各型号物理磁盘的平均响应时间;分别计算各型号的物理磁盘的平均响应时间与预设的异常响应时间加权值的乘积,得到各型号物理磁盘的磁盘异常响应时间阈值;判断各非故障物理磁盘的物理磁盘的平均响应时间是否到达与其型号对应的磁盘异常响应时间阈值。3.根据权利要求1所述的方法,其特征在于,所述基于各物理磁盘在预设统计周期内返回的IO读写指令的响应时间,分别计算各物理磁盘的平均响应时间,包括:累加各物理磁盘针对所述预设统计周期的已完成的IO读写指令的响应时间;统计各物理磁盘针对所述预设统计周期的已完成的IO读写指令的个数;将各物理磁盘分别对应的累加的响应时间和统计的IO读写指令的个数相除,分别获得各物理磁盘的平均响应时间。4.根据权利要求1所述的方法,其特征在于,所述将平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘标记为故障物理磁盘,包括:分别记录平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘的持续周期数;如果在若干个统计周期后,所述平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘中的任一物理磁盘的持续周期数达到预设的持续周期阈值,则将该物理磁盘标记为故障物理磁盘。5.根据权利要求4所述的方法,其特征在于,所述分别记录平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘的持续周期数,包括:针对所述平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘中的每个物理磁盘,在下一个统计周期结束时,如果该物理磁盘再次被确定为所述平均响应时间达到与其型号对应的磁盘异常响应时间阈值的物理磁盘,则增加该物理磁盘的持续周期数并记录;如果该物理磁盘未被确定为所述平均响应时间达到...

【专利技术属性】
技术研发人员:上官应兰张学东
申请(专利权)人:杭州宏杉科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1