用于存储系统内的错误策略的方法和系统技术方案

技术编号:2852792 阅读:178 留言:0更新日期:2012-04-11 18:40
一种用于存储系统内的错误策略的方法和系统,所述存储系统包括由网络(104)诸如存储区域网络(SAN)连接的启动器(102)和多个存储设备(106)。该方法包括:记录用于启动器(102)和目标存储设备(106)之间的事务的定时统计;分析用于目标存储设备(106)的所述记录的定时统计;和将用于目标存储设备(106)的所述统计分析应用于针对该目标存储设备(106)的错误恢复过程。该方法还可以包括记录用于启动器(102)和目标存储设备(106)之间使用特定网络路由的事务的统计。所述被记录的和被分析的定时统计可被用于基于各个目标设备(106)和路由的性能提供动态错误策略。

【技术实现步骤摘要】

本专利技术涉及存储系统内的错误策略领域。特别地,本专利技术涉及使用存储系统内的统计分析提供动态超时策略的领域。
技术介绍
现有的存储系统通常与小型存储区域网络(SAN)一起操作,SAN提供了专用存储设备和知道这种存储设备的容量的专用主机设备驱动器之间的连通性。在这些环境中,在产品被安装以便供用户使用之前,性能因素诸如高延迟以及负载状况可以被制造者调整。已经开发了存储虚拟化,其能够通过向主机系统呈现出存储器的单个逻辑视图,实现一个或多个大型SAN上的不同类型的存储器的简单化的存储管理。一个抽象层将物理存储设备与逻辑表示分隔开,并且保持所述存储的所述逻辑视图和物理位置之间的关联。存储虚拟化可以被实现为基于主机的、基于存储的或基于网络的。在基于主机的虚拟化中,通过存储管理软件诸如逻辑卷管理器,抽象层驻留在主机中。在基于存储的虚拟化中,抽象层驻留在存储子系统内。在基于网络的虚拟化中,通过位于服务器和存储子系统间的网络中的存储虚拟化服务器,抽象层驻留在服务器和存储子系统间的网络中。当所述服务器位于主机和存储子系统之间的数据路径上时,它是带内虚拟化。元数据和存储数据在同一路径上。服务器独立于所述主机,具有对存储子系统完整的访问。它可以按照请求创建和分配虚拟卷,并且将虚拟卷呈现给主机。当收到I/O请求时,它执行物理转换,并且因此重定向该I/O请求。例如,IBM(国际商业机器公司的商标)的TotalStorage SAN卷控制器是一种带内虚拟化服务器。如果所述服务器不在所述数据路径中,它是带外虚拟化。随着被连接在主计算机和存储设备之间的存储虚拟化控制器(SVC)系统的到来,关于存储设备的容量的知识不再可得到。SVC通常使用大型SAN上的许多不同类型的存储器。虚拟化系统可能没有被专门调整为与特定存储设备一起工作;因此虚拟化系统需要进行某些学习以便聪明地和可靠地与各种存储设备一起操作。典型地SCSI存储目标设备驱动器实现严格的超时策略,其指明在错误恢复过程开始之前允许事务花费多长时间。在SAN环境中,由于延迟可能是SAN以及SAN中的其它组件的特性,当存储目标设备工作在其正常操作参数内时,这种严格的定时可能引起不必要的或迟到的错误恢复。另一个问题是,不同类型的存储设备具有不同的特性,并且可以被单个启动器或一组启动器使用。被设计为使用标准SCSI和光纤通道接口操作的虚拟化产品可能不知道所附的(多个)存储设备的特性,并且可能不知道连接它们的SAN的特性。实际上,它们也不知道其它主机和存储控制器将在SAN或该存储控制器上施加多大的负载,这是因为单个存储控制器可以同时被附加到许多不同的主机和/或SVC。在操作过程中,SAN丢失构成事务的帧,并且这引起事务超时。这是任何传输系统的特性,并且对问题的早期的和纠正检测是重要的,以便使用SAN给应用并且最终给用户提供可靠的服务。SAN构造设备的延迟和可靠性与存储设备的延迟和可靠性无关地改变。SAN的问题诊断可能是困难的,所以能够告知存储设备的问题和SAN构造设备的问题之间的不同是有帮助的。由SAN和/或存储设备引起的延迟问题成为系统特性的一部分。即使主机或SVC“知道”它被附加到的存储设备的类型,并且知道一般地该类型的控制器速度快并且可靠,对于每种配置也不可能事先知道其被使用和被附加的特定的方法。由于事务可能需要被放弃和重试,SAN构造设备的错误恢复可能花费相当多的时间,大约20-120秒。SAN超时(time-out)可以被用于所述的放弃。
技术实现思路
本专利技术的一个目的是改进主机系统和SVC两者中的启动器设备驱动器的能力。根据本专利技术的第一方面,提供了一种用于存储系统内的错误策略的方法,包括记录启动器和目标存储设备之间的事务的定时统计;分析用于目标存储设备的所述记录的定时统计;和将目标存储设备的所述统计分析应用于针对该目标存储设备的错误恢复过程。优选地,启动器和存储设备被通过网络连接,并且该方法包括记录用于启动器和目标存储设备之间使用特定网络路由的事务的定时统计。定时统计可以包括下面的一个或多个事务响应时间、事务延迟时间、读响应时间、写响应时间、第二次尝试事务响应时间。统计分析可以包括下面的一个或多个对所记录的统计进行平均、确定所记录的统计中的峰值、确定遇到的错误的数目。可以针对当前事务之前的一个采样时间周期执行所述统计分析。所述采样时间周期可以是到目标存储设备的事务的预先确定的数目。将统计分析应用于错误恢复过程可以包括动态地改变目标存储设备的错误超时时间。将统计分析应用于错误恢复过程还可以包括动态地改变在发送命令以便清除事务之前的时间。当与目标存储设备的正常定时行为进行比较时,统计分析的应用还可以确定该目标存储设备的任何定时不规则性。该方法可以包括通过应用使用特定路由的记录的定时统计,选择启动器和目标存储设备间的重试路由。不同的路由可以被用于事务的重试尝试。可以为每个目标存储设备和所述启动器可使用的到一目标存储设备的每个路由保持记录的定时统计。在一个实施例中,该方法包括通过共享类似速度和/或可靠性的目标存储设备和路由管理存储设备。根据本专利技术的第二方面,提供了一种系统,包括由网络连接的启动器和多个存储设备,启动器包括用于记录启动器和目标存储设备之间的事务的定时统计的装置;用于分析用于目标存储设备的记录的定时统计的装置;和用于将用于目标存储设备的所述统计分析应用于针对该目标存储设备的错误恢复过程的装置。用于记录定时统计的装置可以包括记录用于穿过所述网络到达所述存储设备的路由的定时统计。例如,所述网络可以是一个或多个存储区域网络(SAN)。所述启动器可以是主计算机或存储虚拟化控制器。目标存储设备可以是由逻辑单元号标识的逻辑单元,或由唯一标识符标识的目标存储设备。用于将统计分析应用于错误恢复过程的装置包括用于动态地改变目标存储设备的错误超时时间的装置。用于将统计分析应用于错误恢复过程的装置还可以包括用于动态地改变在发送命令以便清除事务之前的时间的装置。用于将统计分析应用于错误恢复过程的装置还可以包括用于确定目标存储设备的任何定时不规则性的装置。用于将统计分析应用于错误恢复过程的装置可以包括用于通过应用使用特定路由的记录的定时统计,选择启动器和目标存储设备间的重试路由的装置。用于记录定时统计的装置可以包括用于每个目标存储设备和所述启动器可使用的到一目标存储设备的每个路由的记录的统计。通过共享类似速度和/或可靠性的目标存储设备和路由,可以提供用于管理存储设备的装置。根据本专利技术的第三方面,提供了一种存储在计算机可读存储介质中的计算机程序产品,其包括用于执行如下步骤的计算机可读程序代码手段记录用于启动器和目标存储设备之间的事务的定时统计;分析用于目标存储设备的记录的定时统计;和将用于目标存储设备的所述统计分析应用于针对该目标存储设备的错误恢复过程。通过收集给定目标存储设备和其在所述构造设备上的连接/路由的统计,诸如延迟时间,平均以及峰值响应时间,遇到的错误的数目等,可以调整系统使用的超时时间。还可以避免使用慢的或错误的连接,并且能够检测“不合于个性(out of character)”的行为,并且当适合时触发错误恢复过程。这允许进行及时的问题检测,何时SAN和目标是快的和可靠的或是慢的和不可靠本文档来自技高网
...

【技术保护点】
一种用于存储系统内的错误策略的方法,包括:记录用于启动器(102)和目标存储设备(106)之间的事务的定时统计;分析用于目标存储设备(106)的所述记录的定时统计;和将用于目标存储设备(106)的所述统计分析应用于针 对该目标存储设备(106)的错误恢复过程(111)。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:EJ巴特利特NM奥罗克WJ斯凯尔斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1