存储系统中的错误纠正和检测的系统和方法技术方案

技术编号:4586231 阅读:255 留言:0更新日期:2012-04-11 18:40
一种存储系统中的错误纠正和检测的系统和方法。所述系统包括存储控制器、多个存储器模块以及机制。所述存储器模块与所述存储控制器以及多个存储器件通信。所述机制检测到所述存储器模块之一的故障可能与另一存储器模块上的存储器件故障同时发生。所述机制允许所述存储系统在存在存储器模块故障和存储器件故障的情况下继续未受阻碍地运行。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
本专利技术一般地涉及计算机存储器,具体地说,本专利技术涉及RAID存储 系统中的4^检测和纠正。计算机系统通常需要大量高速RAM (随才;i^取存储器),以在计算 机接通电源和运行时保存诸如操作系统软件、程序和其他数据之类的信息。 此信息一般采用二进制,由称为数据位的1和0模式组成。所述数据位经 常在更高级别上进行分组和组织。例如, 一个字节通常由8个位组成,尽 管当字节中还包括识别和/或纠正错误时使用的信息时,所述字节还可包含 附加位(例如,9、 10等)。该二进制信息一般在计算机系统接通电源和 初始程序加载(IPL)时,^皮从诸如硬盘驱动器(HDD)之类的非易失性 存储装置(NVS)加载到RAM。在正常计算机操作期间,还从NVS分页 出数据以及将数据分页到NVS。 一般而言,计算机系统所用的所有程序和 信息无法装入较昂贵的小型动态RAM (DRAM)中,即使能装入,也会 在计算机系统断电时丟失数据。目前,通常使用大量HDD来构建NVS系 统。计算机RAM经常被设计为可插拔的子系统,后者通常采用模块形式, 如此可根据每个系统和应用的特定存储要求,不断将更多的RAM添加到 每个计算机。缩略词DIMM表示双列直插存储器模块,这可能是目前 在用的最流行的存储器模块。DIMM是包括一个或多个存储器件的薄型的 矩形卡,并且还可包括一个或多个寄存器、緩沖器、集线器装置和/或非易 失性装置(例如,可擦写可编程只读存储器或EPROM),以及各种 无源器件(例如,电阻器和电容器),它们都安装到卡。DIMM通常采用 需要定期刷新以防止其中所存储的数据丢失的动态存储芯片或DRAM。 DRAM芯片最初为异步器件,但是,现在的芯片,同步DRAM ( SDRAM)(例如,单倍数据速率或SDR、双倍数据速率或DDR 、 DDR2、 DDR3等)具有同步接口来提高性能。DDR器件通常采用预取以及其他提 升速度的技术,以提高存储器带宽并降低延迟。例如,DDR3具有为8的 标准突发长度。随着计算机系统功能的日益强大,存储器件密度也在持续增大。目前 单个计算机的RAM容量一般包含数百兆的位。不幸地,单个RAM器件 的一小部分发生问题就可导致整个计算机系统出现故障。当发生存储器错 误(其可能是硬,,(重复发生)故障或软( 一次或间歇性)故障)时, 这些故障可能为单个单元故障、多位故障、整体芯片故障或整体DIMM故 障,并且部分或全部系统RAM在其被修复之前可能无法使用。修复时间 可能为数小时,甚至数日,这会对依赖于计算机系统的业务造成重大影响。随着现代计算机中内存存储容量的不断增加,在正常运行期间遇到 RAM故障的几率也在持续增加。在过去数十年来,检测和纠正位错误的技术已经发展为相当精密的科 技。最基本的检测技术可能就是奇校验或偶校验的出现,其中数据字中的 数字1或0被一起异或(XOR)来生成校验位。例如,包含偶 数个'T,的数据字的校验位为0,以及包含奇数个1的数据字的校验 位为1,此校验位数据被附加到所存储的存储器数据。如果在读取操作期 间数据字中存在一个错误,则可以通过从数据重新生成校验,然后检查该 校验是否与已存储的(原始生成的)校验匹配来检测此错误。Richard Hamming发现,可以将校验技术扩展为不仅检测错误,而且 还通过将XOR字段(即,纠错码(ECC)字段)附加到每个代码字来纠 正错误。ECC字段是数据字中进行异或的不同位的组合,使得,(对 数据字的细孩t更改)可以被容易地检测、锁定和校正。可以检测并纠正的 4t^数与附加到数据字的ECC字段的长度直接相关。所述纟支术包括确保 有效数据字与代码字组合之间的最小分隔距离。要检测和纠正的g数越 多,代码字就越长,从而使有效代码字之间的距离更长。有效代码字之间 的最短距离4皮称为最短汉明距离。据恢复为原始/正确的形式,或用于存储介质中由于器件的物理特性而造成的有限可能的数据错误。存储器件通常将数据存储为代表RAM中的1或 0的电压电平并且同时受器件故障以及由高能宇宙射线和a粒子造成的状 态更改的影响。类似地,将1和0存储为磁性表面上的磁场的HDD也受 磁介质中的缺陷以及可能造成数据模式从原始存储状态更改的其他机制的 影响。在上世纪八十年代,RAM存储器件大小首次达到了受导致存储器位 翻转的a粒子撞击和宇宙射线影响的程度。这些粒子不会损坏器件,但是 可造成存储器错误。这些错误称为软错误,并且经常只影响一个位。 一旦 被识别,便可通过简单地重写存储单元来纠正所述位错误。软错误的频率 已增加到对总体系统可靠性具有显著影响的程度。如由Hamming所提出的存储器ECC使用位于数据字中各个位位置上 的校验码的组合来检测和纠正错误。每次将数据字写入存储器时,都需要 生成新的ECC字并将这些字与数据一起存储,由此在从存储器读出的数 据包括的ECC码与通过所读取的lt据生成的最新计算的ECC码不匹配 时,允许检测和纠正该数据。最初ECC应用于计算机系统中的RAM以提供超过先前手段所允许的 容错。部署可实现双位错误检测(DED)和单位错误纠正(SEC)的二进 制ECC码。该SEC/DED ECC还允许透明地恢复RAM中的单位硬错误。还开发了清理(scrubbing)例程来帮助减少存储器错误,其方式为通 过互补/重新互补过程查找软错误以便可以检测和纠正这些软错误。某些存储装置制造商使用诸如Reed-Solomon码之类的高级ECC技术 来纠正整体存储芯片故障。某些存储系统设计还包括可自动引入存储系统 来替代故障芯片的标准保留存储芯片(例如备用芯片)。这些改进技 术极大地提高了 RAM可靠性,但是由于存储器大小不断增加并且客户对 可靠性的期望也在增长,所以需要进一步的提升。系统需要容忍整个DIMM的故障并且在系统运行的同时更换该DIMM。此外,必须考虑影响 一个或多个DIMM与存储控制器/嵌入式处理器间的连接之间的单点故障 的其他故障模式。例如,存储控制器和存储器件(多个)间的某些连接可 包括一个或多个中间緩冲器,后者可能在存储控制器外部并位于DIMM之 上或之外,但是,当出现故障时,所述中间緩冲器可能表现为单个DIMM 故障、整体DIMM故障或范围更广的存储系统故障的一部分。虽然明显需要使用更高级的纠错技术来提高计算机RAM的可靠性(也称为容错度),但是这种尝试因为会对可用的客户存储器、性能、 空间和热度等产生影响而受阻。通过包括数据的额外副本(例如镜像) 来使用冗余或使用更复杂的错误编码技术会增加成本,加大设计的复杂性, 并且会影响另一关键的业务度量上市时间。例如,多家存储装置制造公 司已将简单的存储器镜像技术作为一项功能推出。使用存储器镜像可使系 统从更严重的存储故障中恢复,但其接受度还很低,因为这需要在设计中 已存在的基本SEC/DEC ECC之上使存储器大小加倍,这样通常只留给客 户不到已安装RAM的50%来用于系统。已经开始使用ECC技术来提高存储系统的可用性,其方式为纠正 HDD故障,以使客户免受因HDD故障造成的数据丟失或数据完整性问题, 同时进一 步保护客户免受较小的故障模式的影响。升了 HDD对计算机RAM的可用性。在许多方面,使用RAID技术更容 易从HDD本文档来自技高网...

【技术保护点】
一种检测和纠正存储系统中的错误的存储控制器,所述存储控制器包括: 用于检测所述存储系统中的一个或多个错误的装置,所述存储系统包括具有存储器件的多个存储器模块,响应于存储命令而共同地访问所述存储器模块; 用于使用三角测量识别错误类 型以将所述一个或多个错误隔离到存储器件和存储器模块之一或两者的装置;以及 用于使用水平地应用于所述多个存储器模块中的存储器件的第一ECC码和垂直地应用于一个存储器模块中的存储器件的第二ECC码来纠正所述一个或多个错误,从而使所述存储系 统能够在与存储器件故障同时发生的存储器模块故障的情况下未受阻碍地运行的装置。

【技术特征摘要】
【国外来华专利技术】US 2007-6-28 11/769,9291.一种检测和纠正存储系统中的错误的存储控制器,所述存储控制器包括用于检测所述存储系统中的一个或多个错误的装置,所述存储系统包括具有存储器件的多个存储器模块,响应于存储命令而共同地访问所述存储器模块;用于使用三角测量识别错误类型以将所述一个或多个错误隔离到存储器件和存储器模块之一或两者的装置;以及用于使用水平地应用于所述多个存储器模块中的存储器件的第一ECC码和垂直地应用于一个存储器模块中的存储器件的第二ECC码来纠正所述一个或多个错误,从而使所述存储系统能够在与存储器件故障同时发生的存储器模块故障的情况下未受阻碍地运行的装置。2. 如权利要求l中所述的存储控制器,其中结合所述第二ECC码来 使用偏移多重移动以确保所述纠正不会产生行对齐错误和变得无法检测。3. 如权利要求1或2中所述的存储控制器,其中在识别到故障存储器 模块时,将所述故障存储器模块的身份用作所述第一 ECC纠错码中的参 数以便提高所述存储系统的可靠性。4. 如任一上述权利要求中所述的存储控制器,其中所述第一ECC码 为RAID-3 ECC码以及所述第二 ECC码为RAID-6 ECC码。5. —种存储系统,包括与存储控制器以及多个存储器件通信的多个存储器模块;以及 如任一上ii^利要求中所述的存储控制器。6. 如权利要求5中所述的存...

【专利技术属性】
技术研发人员:L阿维斯W克拉克T戴尔T德威克特K高尔L拉斯特拉斯莫塔诺J奥康纳
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1