【技术实现步骤摘要】
本公开内容总体上涉及存储技术,并且具体地,涉及用于存储系统中的故障检测的方法和装置。
技术介绍
在一类存储系统中,磁盘、机柜等硬件存储设备可由多个交换机连接在一起,以形成存储网络。在这样的存储网络中,数据的输入/输出(I/O)路径往往涉及多个交换机。已知的是,当存储系统中的软件模块发生故障时,可以通过各种软件分析和重现技术而相对容易地定位故障源。然而,当交换机等硬件设备发生故障时,往往难以快速、准确地找到故障源。具体而言,在存储系统的运行中,交换机可能由于设备老化、供电问题(例如,电压不稳)、环境因素(例如,温度、湿度,等等)而发生故障。此时,可以观察到存储系统中的数据I/O操作的错误,例如,数据格式丢失、校验错误,等等。此时,传统方案需要对I/O路径中可能导致错误的所有交换机进行逐一排查,这是一个费时费力的过程。某些已知的方案利用校验技术来进行故障检测。如果I/O路径中的一个交换机接收到的数据发生校验错误,则向该交换机发送该数据的上游交换机被确定为故障设备。然而,这种方法在准确性方面存在缺陷。可以理解,校验错误的发生并非一定意味着交换机发生了故障。在很多情况下,校验错误可能由软件模块、链路甚至某些随机或不可知的原因引起。另外,当I/O路径中的多个交换机检测到传入数据的校验错误时,传统方法会将这些交换机都判定为故障设备,而情况往往并非如此。
技术实现思路
一般地 ...
【技术保护点】
一种存储系统中的故障检测方法,包括:确定所述存储系统中的多个交换机中的每个交换机在预定的时间窗口内接收到的数据的量,以获得多个数据量;确定所述多个交换机中的每个交换机在所述数据中检测到的校验错误的计数,以获得多个校验错误计数;以及基于所述多个数据量和所述多个校验错误计数,计算所述多个交换机中的每个交换机的故障风险。
【技术特征摘要】
1.一种存储系统中的故障检测方法,包括:
确定所述存储系统中的多个交换机中的每个交换机在预定的时
间窗口内接收到的数据的量,以获得多个数据量;
确定所述多个交换机中的每个交换机在所述数据中检测到的校
验错误的计数,以获得多个校验错误计数;以及
基于所述多个数据量和所述多个校验错误计数,计算所述多个交
换机中的每个交换机的故障风险。
2.根据权利要求1所述的方法,其中确定所述存储系统中的多
个交换机中的每个交换机在预定的时间窗口内接收到的数据的量包
括:
对于所述多个交换机中与所述存储系统的主机相连接的顶层交
换机,忽略在所述时间窗口内从所述主机接收到的数据的量。
3.根据权利要求1所述的方法,其中确定所述多个交换机中的
每个交换机在所述数据中检测到的校验错误的计数包括:
对于所述多个交换机中与所述存储系统的主机相连接的顶层交
换机,忽略在所述时间窗口内从所述主机接收到的所述数据中检测
到的校验错误。
4.根据权利要求1所述的方法,其中确定所述存储系统中的多
个交换机中的每个交换机在预定的时间窗口内接收到的数据的量包
括:
对于所述多个交换机中与所述存储系统的存储设备相连接的底
层交换机,忽略在所述时间窗口内从所述存储设备接收到的数据的
量。
5.根据权利要求1所述的方法,其中确定所述多个交换机中的
每个交换机在所述数据中检测到的校验错误的计数包括:
对于所述多个交换机中与所述存储系统的存储设备相连接的底
层交换机,忽略在所述时间窗口内从所述存储设备接收到的所述数
\t据中检测到的校验错误。
6.根据权利要求1所述的方法,其中确定所述存储系统中的多
个交换机中的每个交换机在预定的时间窗口内接收到的数据的量包
括:
对于所述多个交换机中的中间交换机:
确定在所述时间窗口内从与所述中间交换机相连接的上游
交换机接收到的写数据的量;以及
确定在所述时间窗口内从与所述中间交换机相连接的下游
交换机接收到的读数据的量。
7.根据权利要求1所述的方法,还包括:
响应于所述多个交换机中的给定交换机从与所述给定交换机相
连接的相邻设备接收到的数据中检测到校验错误,请求所述相邻设
备向所述给定交换机重发所述数据。
8.根据权利要求1所述的方法,其中计算所述多个交换机中的
每个交换机的故障风险包括:
对于所述多个交换机中的每个交换机,利用以下各项来表征所述
校验错误的计数,以获得多个计数表征:
上游设备发生故障的所述风险,
接收自所述上游设备的写数据的量,
下游设备发生故障的所述风险,以及
接收自所述下游设备的读数据的量;以及
基于所述计数表征来计算所述多个交换机中的每个交换机的所
述故障风险。
9.根据权利要求8所述的方法,其中每个交换机的所述校验错
误的计数被表征为以下项之和:
所述上游设备发生故障的所述风险与所述接收自所述上游设备
的写数据的量的乘积;以及
所述下游设备发生故障的所述风险与所述接收自所述下游设备
的读数据的量的乘积。
10.根据权利要求9所述的方法,其中所述和是加权和,并且其
\t中所述上游设备和所述下游设备中的至少一个的权重基于以下至少
一项来确定:设备类型、生产商、使用时间、重要性、历史故障情
况。
11.一种存储系统中的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。