使用基于纠错的度量来识别性能不佳的数据存储设备制造技术

技术编号:29465348 阅读:71 留言:0更新日期:2021-07-27 17:56
本发明专利技术公开了一种用于识别数据存储系统中性能不佳的数据存储设备(DSD)(诸如硬盘驱动器(HDD)和/或固态驱动器(SSD))的方法,涉及从多个DSD中的每个DSD检索和评估相应的一组日志页面,诸如SCSI Log感测计数器。基于每个相应的一组日志页面,为每个相应的DSD确定服务质量(QoS)度量的值,其中每个QoS值表示在相应DSD不执行自主纠错的情况下被处理的字节的平均百分比。响应于特定DSD达到预先确定的阈值QoS值,可确定特定DSD的原位修复,或者可将特定DSD添加到候选DSD列表中以用于进一步检查,这可包括针对适当配置的DSD的FRPH检查。

【技术实现步骤摘要】
【国外来华专利技术】使用基于纠错的度量来识别性能不佳的数据存储设备相关申请的交叉引用本申请是2019年6月26日提交的标题为“UseOfRecoveryBehaviorForPrognosticatingAndIn-SituRepairofDataStorageDevices”的待审美国专利申请16/453,368的部分继续申请并且要求该待审美国专利申请的优先权的权益,该待审美国专利申请的全部内容以引用方式并入,以用于本文完全阐述的所有目的。
本专利技术的实施方案可整体涉及数据存储系统,并且更具体地涉及识别运行上有问题的数据存储设备的方法。
技术介绍
存在对高容量数字数据存储系统的商业需求,其中多个数据存储设备(DSD)(或者,通常是,“驱动器”)容纳在共同的壳体中。数据存储系统通常包括容纳多个搁架的大型壳体,多行DSD安装在该搁架上。使用数据存储系统的典型方法是移除或停止使用在现场发生故障或失效的DSD。然后,通常由内部实验室或客户部署站点的技术人员以替换DSD更换此类DSD。失效驱动器通常被客户销毁或返回给制造商进行失效分析。本节中描述的任何方法是可以实行的方法,但不一定是先前已经设想到或实行过的方法。因此,除非另有说明,否则不应认为本节所述的任何方法仅仅因为包含在本节中而成为现有技术。附图说明实施方案通过示例而非限制的方式在附图中示出,在附图中相同的附图标记指代相似的元件并且其中:图1A是根据一个实施方案的示出硬盘驱动器(HDD)的平面图;图1B是根据一个实施方案的示出固态驱动器(SSD)的框图;图2为根据一个实施方案的示出数据存储系统的透视图;图3是根据一个实施方案的示出数据存储系统架构的框图;图4是根据一个实施方案的示出识别有问题的硬盘驱动器的方法的流程图;图5是根据一个实施方案的示出识别性能不佳的数据存储设备的方法的流程图;并且图6是根据一个实施方案的示出识别性能不佳的数据存储设备的方法的流程图。具体实施方式本专利技术描述了识别有问题的使用中的数据存储设备的方法。在以下描述中,出于解释的目的,阐述了许多具体细节,以便提供对本文所述的本专利技术实施方案的透彻理解。然而,将显而易见的是,本文所述的本专利技术的实施方案可以在没有这些具体细节的情况下实践。在其他情况下,熟知的结构和设备以框图的形式示出,以便避免不必要地模糊本文所述的本专利技术的实施方案。示例性操作上下文数据存储系统的物理描述存在对高容量数字数据存储系统的商业需求,其中多个数据存储设备(DSD)诸如硬盘驱动器(HDD)和/或固态驱动器(SSD)容纳在共同的壳体中。数据存储系统通常包括容纳多个搁架的大型壳体,多行DSD安装在该搁架上。图2为根据实施方案的示出数据存储系统的示例的透视图。数据存储系统200可以包括系统壳体202(或“机架202”),多个数据存储系统托盘204容纳在该系统壳体中。例如,每个托盘204可被放置或滑动到机架202内的对应狭槽中。机架202还容纳系统控制器,并且还可容纳开关、存储服务器、应用服务器、电源、冷却风扇等。图3是根据一个实施方案的示出数据存储系统架构的框图。示例性架构300示出了包括多个硬盘驱动器(DSD)304a(HDD1)、304b(HDD2)和304n(HDDn)的数据存储系统200,其中n表示可因具体实施而异的任意数量的HDD(和/或SSD)。每个HDD304a-304n根据对应的通信协议323经由通信接口322与数据存储系统控制器312通信并处于该数据存储系统控制器的控制下。每个HDD304a-304n包括对应非易失性存储器(NVM)306(例如,在HDD的情况下,通常为旋转磁盘介质的形式),其由包括日志模块310的相应HDD控制器308控制。每个日志模块310(其可以是例如对应片上系统(SoC)的构成,诸如数据信道电路或硬盘控制器电路的一部分,如图所示,在HDD的上下文中)能够记录HDD控制器308采取的动作,诸如记录读取、写入和查找错误、相关联的恢复动作以及其他近期和长期HDD状态信息。数据存储系统200的系统控制器312包括存储器313、处理器315和可靠性引擎314以及相关联的FRPH(每小时全恢复)模块316,它们共同表示涉及HDD304a-304n的预后和原位修复的过程功能,如本文其他地方更详细描述的。在本文中被描述为由系统控制器312或HDD304a-304n执行或可执行的处理、功能、过程、动作、方法步骤等可包括通过执行存储在一个或多个存储器单元中的一个或多个指令序列来执行,并且当由一个或多个处理器执行时,导致此类性能。系统控制器312可以软件、硬件和固件的任何形式和/或组合来实施。例如,并且根据一个实施方案,系统控制器312包括专用集成电路(ASIC),该专用集成电路包括用于存储此类指令(作为非限制性示例,诸如固件)的至少一个存储器单元和用于执行此类指令的至少一个处理器,启用关于多个HDD304a-304n的潜在有问题的HDD的预后(例如,“静默”故障驱动,其内部可能正在努力完成数据事务,但尚未公开故障),并且管理、控制、促进与已发生故障和故障中的HDD对应的原位修复动作。数据存储系统200可与主机350通信地耦接,该主机可被实施为在其上执行可执行代码的硬件机器(对于非限制性示例,计算机或硬件服务器,等等),或作为可由一个或多个处理器(对于非限制性示例,软件服务器诸如数据库服务器、应用程序服务器、媒体服务器等)执行的软件指令。主机350通常表示数据存储系统200的客户端,并且具有向数据存储系统200提出读取和写入请求(输入/输出或“IO”)的能力。需注意,系统控制器312也可被称为“主机”,因为该术语通常参考对数据存储设备或设备阵列进行IO调用的任何设备来使用,例如HDD304a-304n。
技术介绍
如本文所使用的,术语“基本上”应当理解为描述大部分或差不多被结构化、配置、定尺寸等的特征,但在实践中制造公差等引起结构、构型、尺寸等并不总是或一定如所述的那样精确的情形。例如,将结构描述为“基本上竖直的”将为该术语赋予其普通含义,使得侧壁对于所有实用目的均为竖直的,但可能并不精确地处于90度。虽然诸如“最佳”、“优化”、“最小”、“最小化”等术语可能不具有与其相关联的某些值,但是如果这些术语在本文中使用,则意图是本领域普通技术人员将理解此类术语将包括在与本公开的整体一致的有益方向上影响值、参数、度量等。例如,将某事物的值描述为“最小”并不要求该值实际上等于某个理论最小值(例如,零),但应在实际意义上理解为对应的目标是在有益方向上朝向理论最小值移动该值。一些数据存储系统实施诊断和原位(例如,“就位”或“在适当位置”)修复规程。这意味着在现场操作期间已发生故障的系统HDD在现场被诊断和修复到可能的程度,并且如果它们不能被修复,则它们被原位停用而不是被替换。优选地,原位修复需要自动化或半自动化过程,而所关注的HDD保留在系统外壳中。许多HDD修复不会导致容量或性能的任何损失。本文档来自技高网
...

【技术保护点】
1.一种用于识别性能不佳的数据存储设备(DSD)的方法,所述方法包括:/n从多个数据存储设备(DSD)中的每一个数据存储设备检索相应的一组错误日志页面;/n基于每个相应的一组日志页面,确定所述多个DSD中的每个相应DSD的服务质量(QoS)度量的值,其中每个QoS值表示在所述相应DSD不执行自主纠错的情况下被处理的字节的百分比;/n确定每个DSD QoS值是否达到预先确定的QoS阈值;以及/n响应于特定DSD QoS值达到所述预先确定的QoS阈值,确定是针对所述特定DSD执行原位修复还是将所述特定DSD添加到候选DSD列表以供进一步检查。/n

【技术特征摘要】
【国外来华专利技术】20190626 US 16/453,368;20191119 US 16/688,9921.一种用于识别性能不佳的数据存储设备(DSD)的方法,所述方法包括:
从多个数据存储设备(DSD)中的每一个数据存储设备检索相应的一组错误日志页面;
基于每个相应的一组日志页面,确定所述多个DSD中的每个相应DSD的服务质量(QoS)度量的值,其中每个QoS值表示在所述相应DSD不执行自主纠错的情况下被处理的字节的百分比;
确定每个DSDQoS值是否达到预先确定的QoS阈值;以及
响应于特定DSDQoS值达到所述预先确定的QoS阈值,确定是针对所述特定DSD执行原位修复还是将所述特定DSD添加到候选DSD列表以供进一步检查。


2.根据权利要求1所述的方法,其中:
检索所述一组错误日志页面包括检索一组SCSI(小型计算机系统接口)日志感测计数器;并且
确定所述QoS度量的所述值包括基于来自由以下项组成的参数组的至少两个参数来进行确定:(1)参数0001h:校正的可能有延迟的错误,(2)参数0004h:校正算法处理的总时间,和(3)参数0005h:被处理的总字节。


3.根据权利要求2所述的方法,其中确定所述QoS度量的所述值包括基于来自由读取域、写入域和验证操作域组成的一组域中的一个域来进行确定。


4.根据权利要求1所述的方法,其中检索所述一组错误日志页面包括检索一组SMART(自我监测、分析与报告技术)参数,所述一组SMART参数指示(i)校正的总错误数量,(ii)校正算法调用的数量,和(iii)被处理的总字节数。


5.根据权利要求1所述的方法,其中确定所述QoS度量的所述值包括确定与小于每个相应DSD的寿命的预先确定的时间段对应的所述QoS度量的所述值。


6.根据权利要求1所述的方法,其中确定特定DSDQoS值是否达到预先确定的QoS阈值包括将所述特定DSDQoS与跟所述多个DSD对应的QoS值的统计量度进行比较。


7.根据权利要求6所述的方法,其中所述多个DSD关联在DSD的RAID(独立磁盘或驱动器冗余阵列)分组中。


8.根据权利要求6所述的方法,其中所述多个DSD关联在应用于所述多个DSD的擦除编码范式中。


9.根据权利要求1所述的方法,其中确定是否将所述特定DSD添加到所述列表包括确定是否将所述特定DSD添加到候选DSD列表以用于进一步的每小时全恢复(FRPH)检查,包括:
从作为特定硬盘驱动器(HDD)的所述特定DSD来检索恢复日志;以及
基于所述恢复日志,确定所述特定HDD的每个相应读写磁头的FRPH度量的值,包括:
对所述磁头在特定时长内在由所述磁头执行的所有恢复步骤上花费的时间量求和,包括将全恢复表征为对应于所述磁头在一个或多个恢复步骤上花费的预先确定的时长,
确定在所述特定时长内的相等数量的全恢复,以及
基于所述全恢复的数量和所述特定时长,确定所述磁头的所述FRPH度量的所述值。


10.根据权利要求9所述的方法,所述方法还包括:
响应于特定磁头FRPH度量的值达到预先确定的FRPH阈值,确定针对所述特定磁头在其中运行的所述特定HDD的原位修复。


11.一种用于从构成数据存储系统的多个关联的数据存储设备(DSD)中识别性能不佳的DSD的方法,所述方法包括:
周期性地轮询所述多个DSD的一组错误计数器;
基于所述错误计数器,确定多个DSD中的每个相应DSD的寿命服务质量(QoS)度量的值,其中每个寿命QoS值基于在每个相应DSD不执行自主纠错的情况下在所述相应DSD的寿命内被处理的字节的平均百分比;以...

【专利技术属性】
技术研发人员:R·莱斯特A·斯特里格尔J·泰松T·利伯E·理查德森D·奔萨
申请(专利权)人:西部数据技术公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1