用于存储系统中的故障检测的方法和装置制造方法及图纸

技术编号:13285696 阅读:42 留言:0更新日期:2016-07-09 02:03
本公开内容涉及用于存储系统中的故障检测的方法和装置。一个实施例提供一种存储系统中的故障检测方法,包括:确定所述存储系统中的多个交换机中的每个交换机在预定的时间窗口内接收到的数据的量,以获得多个数据量;确定所述多个交换机中的每个交换机在所述数据中检测到的校验错误的计数,以获得多个校验错误计数;以及基于所述多个数据量和所述多个校验错误计数,计算所述多个交换机中的每个交换机的故障风险。本发明专利技术的另一实施例提供相应的装置。

【技术实现步骤摘要】

本公开内容总体上涉及存储技术,并且具体地,涉及用于存储系统中的故障检测的方法和装置
技术介绍
在一类存储系统中,磁盘、机柜等硬件存储设备可由多个交换机连接在一起,以形成存储网络。在这样的存储网络中,数据的输入/输出(I/O)路径往往涉及多个交换机。已知的是,当存储系统中的软件模块发生故障时,可以通过各种软件分析和重现技术而相对容易地定位故障源。然而,当交换机等硬件设备发生故障时,往往难以快速、准确地找到故障源。具体而言,在存储系统的运行中,交换机可能由于设备老化、供电问题(例如,电压不稳)、环境因素(例如,温度、湿度,等等)而发生故障。此时,可以观察到存储系统中的数据I/O操作的错误,例如,数据格式丢失、校验错误,等等。此时,传统方案需要对I/O路径中可能导致错误的所有交换机进行逐一排查,这是一个费时费力的过程。某些已知的方案利用校验技术来进行故障检测。如果I/O路径中的一个交换机接收到的数据发生校验错误,则向该交换机发送该数据的上游交换机被确定为故障设备。然而,这种方法在准确性方面存在缺陷。可以理解,校验错误的发生并非一定意味着交换机发生了故障。在很多情况下,校验错误可能由软件模块、链路甚至某些随机或不可知的原因引起。另外,当I/O路径中的多个交换机检测到传入数据的校验错误时,传统方法会将这些交换机都判定为故障设备,而情况往往并非如此。
技术实现思路
一般地,本专利技术的实施例提出一种用于存储系统中的故障检测的技术方案。在一个方面,本专利技术的实施例提供一种存储系统中的故障检测方法。所述方法包括:确定所述存储系统中的多个交换机中的每个交换机在预定的时间窗口内接收到的数据的量,以获得多个数据量;确定所述多个交换机中的每个交换机在所述数据中检测到的校验错误的计数,以获得多个校验错误计数;以及基于所述多个数据量和所述多个校验错误计数,计算所述多个交换机中的每个交换机的故障风险。在另一方面,本专利技术的实施例提供一种存储系统中的故障检测装置。所述装置包括:数据量确定单元,被配置为确定所述存储系统中的多个交换机中的每个交换机在预定的时间窗口内接收到的数据的量,以获得多个数据量;校验错误计数单元,被配置为确定所述多个交换机中的每个交换机在所述数据中检测到的校验错误的计数,以获得多个校验错误计数;以及风险计算单元,被配置为基于所述多个数据量和所述多个校验错误计数,计算所述多个交换机中的每个交换机的故障风险。通过下文描述将会理解,根据本专利技术的实施例,不再简单地针对存储系统中的个体交换机来执行故障检测。相反,存储系统中待检测的多个交换机及其关联关系将被作为有机的整体,从而将不同交换机之间的数据传输关系纳入考虑。以此方式,能够更加准确地定位发生故障的交换机。本专利技术的其他特征和优点将通过下文描述而变得容易理解。附图说明通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显其中:图1示出了适于用来实现本专利技术实施例的示例性计算机系统/服务器的示意性框图;图2示出了本专利技术的实施例可实现于其中的存储系统的示意性框图;图3示出了根据本专利技术实施例的用于存储系统中的故障检测的方法的示意性流程图;图4示出了根据本专利技术实施例的顶层交换机的数据端口的示意性框图;图5示出了根据本专利技术实施例的底层交换机的数据端口的示意性框图;图6示出了根据本专利技术实施例的中间交换机的数据端口的示意性框图;以及图7示出了根据本专利技术实施例的用于存储系统中的故障检测的装置的示意性框图。在附图中,相同或相似的标号被用来表示相同或相似的元素。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的方框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本专利技术实施例的功能和使用范围带来任何限制。如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本专利技术各实施例的功能。具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本专利技术所描述的实施例中的功能和/或方法。<本文档来自技高网...

【技术保护点】
一种存储系统中的故障检测方法,包括:确定所述存储系统中的多个交换机中的每个交换机在预定的时间窗口内接收到的数据的量,以获得多个数据量;确定所述多个交换机中的每个交换机在所述数据中检测到的校验错误的计数,以获得多个校验错误计数;以及基于所述多个数据量和所述多个校验错误计数,计算所述多个交换机中的每个交换机的故障风险。

【技术特征摘要】
1.一种存储系统中的故障检测方法,包括:
确定所述存储系统中的多个交换机中的每个交换机在预定的时
间窗口内接收到的数据的量,以获得多个数据量;
确定所述多个交换机中的每个交换机在所述数据中检测到的校
验错误的计数,以获得多个校验错误计数;以及
基于所述多个数据量和所述多个校验错误计数,计算所述多个交
换机中的每个交换机的故障风险。
2.根据权利要求1所述的方法,其中确定所述存储系统中的多
个交换机中的每个交换机在预定的时间窗口内接收到的数据的量包
括:
对于所述多个交换机中与所述存储系统的主机相连接的顶层交
换机,忽略在所述时间窗口内从所述主机接收到的数据的量。
3.根据权利要求1所述的方法,其中确定所述多个交换机中的
每个交换机在所述数据中检测到的校验错误的计数包括:
对于所述多个交换机中与所述存储系统的主机相连接的顶层交
换机,忽略在所述时间窗口内从所述主机接收到的所述数据中检测
到的校验错误。
4.根据权利要求1所述的方法,其中确定所述存储系统中的多
个交换机中的每个交换机在预定的时间窗口内接收到的数据的量包
括:
对于所述多个交换机中与所述存储系统的存储设备相连接的底
层交换机,忽略在所述时间窗口内从所述存储设备接收到的数据的
量。
5.根据权利要求1所述的方法,其中确定所述多个交换机中的
每个交换机在所述数据中检测到的校验错误的计数包括:
对于所述多个交换机中与所述存储系统的存储设备相连接的底
层交换机,忽略在所述时间窗口内从所述存储设备接收到的所述数

\t据中检测到的校验错误。
6.根据权利要求1所述的方法,其中确定所述存储系统中的多
个交换机中的每个交换机在预定的时间窗口内接收到的数据的量包
括:
对于所述多个交换机中的中间交换机:
确定在所述时间窗口内从与所述中间交换机相连接的上游
交换机接收到的写数据的量;以及
确定在所述时间窗口内从与所述中间交换机相连接的下游
交换机接收到的读数据的量。
7.根据权利要求1所述的方法,还包括:
响应于所述多个交换机中的给定交换机从与所述给定交换机相
连接的相邻设备接收到的数据中检测到校验错误,请求所述相邻设
备向所述给定交换机重发所述数据。
8.根据权利要求1所述的方法,其中计算所述多个交换机中的
每个交换机的故障风险包括:
对于所述多个交换机中的每个交换机,利用以下各项来表征所述
校验错误的计数,以获得多个计数表征:
上游设备发生故障的所述风险,
接收自所述上游设备的写数据的量,
下游设备发生故障的所述风险,以及
接收自所述下游设备的读数据的量;以及
基于所述计数表征来计算所述多个交换机中的每个交换机的所
述故障风险。
9.根据权利要求8所述的方法,其中每个交换机的所述校验错
误的计数被表征为以下项之和:
所述上游设备发生故障的所述风险与所述接收自所述上游设备
的写数据的量的乘积;以及
所述下游设备发生故障的所述风险与所述接收自所述下游设备
的读数据的量的乘积。
10.根据权利要求9所述的方法,其中所述和是加权和,并且其

\t中所述上游设备和所述下游设备中的至少一个的权重基于以下至少
一项来确定:设备类型、生产商、使用时间、重要性、历史故障情
况。
11.一种存储系统中的...

【专利技术属性】
技术研发人员:周雪强张靖
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1