用散列函数区分存储系统中随机和重复差错的方法和系统技术方案

技术编号:7494866 阅读:235 留言:0更新日期:2012-07-10 18:56
用散列函数区分存储系统中随机和重复差错的方法和系统。一个实施例提供了一种差错检测方法,其中检测存储模块中的单比特差错并识别为随机差错或重复差错。计数在一个时间间隔内出现的每个识别的随机差错和每个识别的重复差错。响应于在预定时间间隔内识别的随机差错的数目达到随机差错阈值,或者识别的重复差错的数目达到重复差错阈值,产生报警。重复差错阈值被设定成小于随机差错阈值。可对每个检测到的差错的存储地址应用散列处理,从而把存储系统中的差错的位置映射到电子表格中的相应位置。

【技术实现步骤摘要】

本专利技术一般涉及计算机存储系统,更具体地说,涉及存储系统中的差错检测和预测故障分析。
技术介绍
计算机系统存储器包括长期(非易失性)和短期(易失性)存储设备。长期存储设备,比如硬盘驱动器(HDD)即使在断电状态下也能够保持软件和数据。短期存储设备,比如双列直插存储器模块(DIMM,Dual In-Line Memory Module)能够在通电状态下保持指令和数据。软件指令和数据可以无限期地保存在长期存储器中,并根据需要加载到短期存储器上以便由处理器执行。执行指令的结果,比如处理后的数据也可被临时保存在短期存储器中,用于通电计算会话期间的继续访问,或者被保存在长期存储器中,用于后续计算会话中的访问和处理。在DMM中会出现差错,所述差错会影响存储系统的性能和可靠性。一种DMM差错是单比特差错(SBE,Single Bit Error) 0极其接近高效开关调节器的随机电源和地噪声是SBE的一个原因。存储系统中越来越严格的定时要求是SBE的另一个作用因素。DIMM 还含有越来越大的存储单元密度,这导致每个DIMM的比特差错率(BER)更高。每个计算机系统含有密度不断增大的DIMM,这也会导致相应更高的差错率。
技术实现思路
本专利技术的一个实施例提供一种检测存储模块中的单比特差错的方法。每个单比特差错被识别为随机差错或重复差错。计数在一个时间间隔内发生的每个识别的随机差错和每个识别的重复差错。响应于在所述时间间隔内,识别的随机差错的数目达到随机差错阈值,或者识别的重复差错的数目达到重复差错阈值,产生报警。重复差错阈值小于随机差错阈值。本专利技术的另一个实施例提供一种存储系统。存储控制器包括用于检测存储模块中的单比特差错的差错检测控制逻辑。包括计数在一个时间间隔内发生的随机差错的随机差错计数器。包括计数在所述时间间隔内发生的重复差错的重复差错计数器。提供比较随机差错计数器与随机差错阈值以及比较重复差错计数器与重复差错阈值的阈值比较器。重复差错阈值小于随机差错阈值。报警发生器被配置成响应于在所述时间间隔内,随机差错计数器达到随机差错阈值,或者重复差错计数器达到重复差错阈值,产生报警。附图说明图1是按照本专利技术的一个实施例,对其实现预测故障分析(PFA,predictive failure analysis)的计算机存储系统的示意图。图2是一般概述可在存储系统中进行的PFA处理的流程图。具体实施方式本专利技术的实施例包括在存储系统中进行预测故障分析(PFA)的系统和方法。每个单比特差错(SBE)现在可被识别为随机差错或者重复差错,随机差错是被确定在预定时间间隔内在特定存储地址或存储地址块出现不超过一次的差错,重复差错是被确定在所述预定时间间隔内在特定存储地址或特定块出现多于一次的差错。随后可以对照不同阈值来比较在预定时间间隔内出现的随机差错和重复差错的数目,以便生成PFA报警。更特别地,与被识别为重复差错的SBE相比,可对被识别为随机差错的SBE设定更高的阈值,因为与重复差错相比,随机差错明显不太可能影响存储器性能。随机差错还不太可能扩展成无法校正的差错,所述无法校正的差错的出现对存储系统的运行的破坏性极大。因此,按照这种方式区分随机差错和重复差错将使得可以识别DIMM中的更严重的重复差错,同时避免当DIMM 仅经历比率可接受的随机差错时,不必要地或者过早地把DIMM标记成坏的DIMM。在下面讨论的一个实施例中,使用散列处理来减少跟踪系统存储器中重复发生差错的每个位置所需的存储器的量和计算循环的数目。可对识别出SBE的存储地址应用散列处理,以确定将记录SBE的表格位置。存储地址可被分组成多个块,其中当应用散列函数时,给定块中的每个存储地址产生相同的散列和。随后,可以使用小至1比特签名的相应差错状态字段来跟踪在所述存储地址或存储地址块是否产生了第一个或后续差错。整个系统所需的计数器少至两个,一个计数器用于跟踪被识别为随机差错的SBE的总数,而另一个计数器用于跟踪在存储系统中被识别为重复差错的SBE的总数。可独立地调整诸如随机差错阈值、重复差错阈值、时间间隔、散列表格的大小、每个存储地址块的大小、以及每个差错状态字段的大小的参数,以按需调整存储系统。图1是按照本专利技术的一个实施例,对其实现预测故障分析(PFA)的计算机存储系统10的示意图。存储系统10可被设置在机架式计算机系统的刀片服务器上。存储系统10 包括主存储器12,主存储器12具有一个或多个双列直插存储器模块(DIMM),比如可设置在刀片服务器的系统板上的DIMM。存储控制器20包含相对于主存储器12读取和写入数据的读/写控制逻辑22、识别和校正DIMM差错的差错检测控制逻辑23。包含在主存储器12 的DIMM内的DRAM(动态随机存取存储器)芯片可包括专用于差错校正的存储比特(未示出)。存储控制器20可以使用这些差错检测比特来记录奇偶性,或者使用纠错码(ECC)来检测所有的单比特差错。差错检测控制逻辑可包括SEDDED( “单差错检测,双差错检测”) 码以检测和校正单比特差错,并利用额外的奇偶校验比特来可选地检测双比特差错。主存储器12可包含成千上万个或者数百万个保存数据的离散存储单元。主存储器12被分成多个块14,每个块14只包含存在于主存储器12中的所有存储单元的子集。每个存储单元具有唯一的存储地址,使得每个块14包含存在于主存储器12中的所有唯一存储地址的子集。附图标记16表示存储单元的一个例子,所述存储单元具有例证的存储地址 “afbf0018”。像这样的8字符地址可利用一个存储字节来表示。通过参照对应的存储地址, 包含在存储系统10内的存储控制器20可以读写特定的存储单元。每个块一般是存储地址的物理分组。为了便于讨论,块14被图示成正方形或矩形块14的组阵,图中用行字母(A, B,C等)和列数字(1,2,3等)来识别每个块。然而,块14不必具有所示的特定物理分组。每个块14可包括任意数目的存储单元,每个存储单元具有唯一的存储地址。图1 提供了其中主存储器12具有相应的1024k个存储地址处的总共IOMX 10~3 ( BP, 1024k)个存储单元的例子。主存储器12中的1024k个存储单元可被划分成1000个块14,使得每个块14具有IOM个存储单元。以每个块14少至1个存储单元的方式(即,以每个块14代表主存储器12中的一个地址的方式)来构成主存储器12也在本专利技术的范围内。然而,跟踪每个存储地址处的SBE的发生是极其存储器密集和CPU密集的。如下所述,在本实施例中,把多个存储地址组成每个块14使得可以更高效地进行PFA。提供电子表格40,以便跟踪在主存储器12中检测到的单比特差错(SBE)。表格40 可以是系统的存储控制器20可读写的主存储器12的子集。专用系统代码可包含在主存储器20内,以访问表格40和执行PFA功能。另一方面,可以包括在主存储器12之外的硬件和软件部件,以执行这些功能。主存储器12的每个块14中的存储单元按照其存储地址被映射到电子表格40中的对应位置。在本实施例中,表格40包括与每个存储地址块相对应的独立记录,使得特定地址块内的每个地址被映射到表格40中的相同位置。具体地说,每个地址块连同包含在该地址块内的存储地址被映射到表格4本文档来自技高网...

【技术保护点】

【技术特征摘要】
...

【专利技术属性】
技术研发人员:S·K·巴哈里邓夫子M·C·埃莱斯J·Q·赫尔南德斯D·A·劳维C·L·普林顿M·L·斯科兰德I·R·扎帕塔
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术