早期检测存储设备降级的装置和方法制造方法及图纸

技术编号:2839177 阅读:245 留言:0更新日期:2012-04-11 18:40
一种可与主机和数据存储组件一起操作的用于检测在I/O工作负荷下易受故障影响的存储设备的装置,包括:选择器组件,用于在所述数据存储组件中选择一对存储设备;数据迁移控制组件,用于启动数据从所述存储设备对中的第一存储设备到所述存储设备对中的第二存储设备的迁移;I/O工作负荷镜像组件,用于将I/O工作负荷从所述存储设备对中的第一存储设备镜像到所述存储设备对中的第二存储设备;以及存储设备故障检测组件,用于检测所述存储设备对中的一个存储设备的故障。所述选择器组件还包括用于周期性地启动所述选择的计时器组件。

【技术实现步骤摘要】

本专利技术涉及控制数据存储系统的技术,更具体地说,涉及存储设备降级的早期检测。
技术介绍
拥有多个设备的数据存储子系统,如廉价磁盘冗余阵列(RAID)阵列,将客户数据存储在多个存储设备上以避免因一个或多个存储设备故障导致的数据丢失。本专利技术涉及此类可包含盘存储装置例如RAID阵列的多设备存储子系统。然而,对本领域的技术人员显而易见的是,其他存储设备(包括但不限于磁带和闪存设备)也可以包含在此类子系统中。为了尽量减少系统在没有冗余的情况下运行的时间,可以将某些存储设备配置为“热后备”设备。在正常运行环境下,这些热后备装置并不保存客户数据。然而,一旦运行中阵列成员出现故障,子系统就选择热后备装置代替出现故障的阵列成员,然后使用该热后备装置来重建阵列。当阵列处于重建过程时,它以降低的冗余运行,这意味着存在尽可能快地重建的压力。存储设备的另一种可能用途(即,除作为成员,后备,或故障设备之外)是作为阵列候选者或空闲设备。这些设备是通过在创建RAID阵列的过程中配置为阵列成员或通过配置为热后备装置而准备投入使用的设备。同时,它们仍然闲置,并且它们可能遭受的任何降级对于子系统控制组件仍然不可见。尽管有内置冗余以及使用热后备装置,但是仍存在当存储设备闲置时它可能出现故障的问题,并且在这种情况下,子系统直到它试图对设备做出实际上的I/O时才会检测到故障。检测到故障通常是在不合适的时候-刚好在需要所述设备接收数据I/O活动时。热后备设备在等待阵列成员出现故障时保持闲置。在此期间它们的状况可能降级,使得它们在子系统在阵列重建期间试图对它们做出实际I/O时出现故障。这是不利的,因为子系统必须以降低的冗余运行更长时间(并且,在最坏的情形下,如果没有更多后备,可能需要通过物理地替换设备的方式来人工干预),从而增加了数据丢失的机会。如以上所指出的,空闲设备也存在同样的问题当它们保持闲置时它们的状况可能降级,并且系统直到它们变成阵列成员并承受I/O工作负荷时才会检测到这种情况。实际上,在某些情况下,配置为活动阵列成员的设备也存在同样的问题。轻负荷或周期性闲置的阵列并不少见。当阵列成员出现故障时重建开始。重建操作通常被设计为尽可能快地运行,这对所有其他阵列成员(通常包括某些有一段时间没有用于I/O的活动阵列成员)施加了压力。对于单冗余RAID系统(例如,RAID5),此时其他盘故障将导致阵列丢失,而在其他子系统中,由于需要重复的I/O而至少减慢了处理。盘驱动器实现不同复杂度的自测试过程。在某些企业级盘驱动器的最新版本中,这包含检查块仍然可读的后台介质扫描。这些功能可以改善问题,但是它们没有试图模拟“真实”客户工作负荷。此解决方案还是盘驱动器供应商和模型特定的,并且具体地说,低成本(例如SATA)盘驱动器不太可能实现这些功能。RAID控制器实现阵列和盘清理。这些处理每隔几天检查阵列成员、热后备装置以及空闲盘的所有块是否可读。同样这些功能没有试图模拟客户工作负荷。由于转向处理它们的I/O时间和设备资源量,该过程也可能破坏正常处理。存在各种使用分布式后备的高级RAID技术。在此方案中没有专用的热后备设备,而将多余容量分配到每个阵列。这彻底消除了热后备装置问题。然而,很难将此类方案改进为带有专用热后备设备的现有RAID体系结构。鉴于上述技术方面的问题,急需一种早期检测磁盘降级的技术装置,而没有由那些更复杂和冗繁的措施带来的额外成本和不便。
技术实现思路
在第一方面,本专利技术相应地提供了一种可与主机和数据存储组件一起操作的用于检测在I/O工作负荷下易受故障影响的存储设备的装置,包括选择器组件,用于在所述数据存储组件中选择一对存储设备;数据迁移控制组件,用于启动数据从所述存储设备对中的第一存储设备到所述存储设备对中的第二存储设备的迁移;I/O工作负荷镜像组件,用于将I/O工作负荷从所述存储设备对中的第一存储设备镜像到所述存储设备对中的第二存储设备;以及存储设备故障检测组件,用于检测所述存储设备对中的一个存储设备的故障。优选地,所述选择器组件还包括用于周期性地启动所述选择的计时器组件。优选地,所述存储设备对中的所述第一存储设备是活动成员,而所述存储设备对中的所述第二存储设备是热后备装置。优选地,所述存储设备对中的所述第一存储设备是活动成员,而所述存储设备对中的所述第二存储设备是空闲设备。优选地,所述数据迁移控制组件允许所述迁移完成;并且其中所述活动成员与所述热后备装置交换角色。优选地,所述数据迁移控制组件允许所述迁移完成;并且其中所述活动成员与所述空闲设备交换角色。优选地,所述数据存储组件包括盘存储装置。优选地,所述数据存储组件包括RAID阵列。在第二方面,本专利技术提供了一种与主机和数据存储组件一起使用的用于检测在I/O工作负荷下易受故障影响的存储设备的方法,包括以下步骤通过选择器组件在所述数据存储组件中选择一对存储设备;通过数据迁移控制组件启动数据从所述存储设备对中的第一存储设备到所述存储设备对中的第二存储设备的迁移;通过I/O工作负荷镜像组件将I/O工作负荷从所述存储设备对中的第一存储设备镜像到所述存储设备对中的第二存储设备;以及通过存储设备故障检测组件检测所述存储设备对中的一个存储设备的故障。优选地,所述选择步骤还包括响应于计时器组件的操作而周期性地启动所述选择。优选地,所述存储设备对中的所述第一存储设备是活动成员,而所述存储设备对中的所述第二存储设备是热后备装置。优选地,所述存储设备对中的所述第一存储设备是活动成员,而所述存储设备对中的所述第二存储设备是空闲设备。优选地,所述数据迁移控制组件允许所述迁移完成,并且其中所述活动成员与所述热后备装置交换角色。优选地,所述数据迁移控制组件允许所述迁移完成,并且其中所述活动成员与所述空闲设备交换角色。优选地,所述数据存储组件包括盘存储装置。优选地,所述数据存储组件包括RAID阵列。在第三方面,提供了一种其上具有功能数据的数据载体,所述功能数据包括功能计算机数据结构,当所述功能数据被载入计算机系统并由其运行时,所述功能计算机数据结构使得所述计算机系统能够执行根据所述第二方面的方法的所有步骤。在第四方面,提供了一种包括计算机程序代码的计算机程序,当所述计算机程序被载入计算机系统并在其上执行时,所述计算机程序代码导致所述计算机系统执行根据所述第二方面的方法的所有步骤。因此,本专利技术的优选实施例在其最宽广的方面中构想了一种用于早期检测盘降级的技术框架。附图说明现在将仅通过实例的方式参考附图描述本专利技术的优选实施例,这些附图是图1以示意图的形式示出了根据本专利技术的优选实施例的装置的布置;图2以流程图的形式示出了一种其中可以实现根据本专利技术的优选实施例的操作方法的方法或逻辑布置。具体实施例方式本专利技术的优选实施例使用盘迁移技术来周期性地改变那些在子系统中配置为热后备装置或空闲盘的驱动器,从而运用(施加工作负荷到)当系统正常使用时将不会运用的那些盘。这优于公知的错误检测技术,因为1.它确保将盘暴露于真实的客户工作负荷,这允许早期检测更多故障并增加子系统可靠性。2.它并不需要来自盘驱动器的特别支持。这使得存储子系统能够使用更廉价的驱动器或来自其他厂商的驱动器而不损害这方面的可靠性。3.在闲置阵列中,它主动地引发与阵列成员本文档来自技高网
...

【技术保护点】
一种可与主机和数据存储组件一起操作的用于检测在I/O工作负荷下易受故障影响的存储设备的装置,包括:    选择器组件,用于在所述数据存储组件中选择一对存储设备;    数据迁移控制组件,用于启动数据从所述存储设备对中的第一存储设备到所述存储设备对中的第二存储设备的迁移;    I/O工作负荷镜像组件,用于将I/O工作负荷从所述存储设备对中的第一存储设备镜像到所述存储设备对中的第二存储设备;以及    存储设备故障检测组件,用于检测所述存储设备对中的一个存储设备的故障。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:MJ费尔赫斯特TW里卡德
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利