【技术实现步骤摘要】
本专利技术一般涉及数据存储系统领域。具体地,本专利技术包括一种用于在数据通信架构(fabric)中隔离错误条件的系统。
技术介绍
在图1中,计算机存储系统10包括主机服务器(“主机”)12、数据处理服务器14、数据存储设备16例如廉价/独立磁盘冗余阵列(“RAID”)、和数据通信系统18。传统上,对信息的请求由主机12发起,由通信系统18传输,并由数据处理服务器14处理。数据处理服务器从数据存储设备16接收数据,并将数据通过通信系统传回主机12。类似地,主机12可将数据写到数据存储设备16中。通信系统18可以是通信总线、点到点网络、或其他通信方案。图2示出了一通信架构20,其包括对称多处理器(“SMP复合体”)22、架构控制器24、和主机适配器26。SMP复合体22是数据处理服务器14(图1)的组件,并且主机适配器26是主机服务器12的接口(图1)。各种错误条件可在这些组件的任何一个中发生。这些错误条件可以是关键性的,即使该设备无法正常工作,或者可以是暂时性的。如果发生了关键性的错误条件,则必须重新启动或更换失效的设备。然而,暂时性错误可根据其严重性和错误发生的频率来处理。某些错误产生于有故障的缆线、功率瞬态、或有缺陷的组件。这些类型的错误中的某些可由通信架构20作为虚假事件容忍和应对。然而,大量非关键性错误可能指示即将发生的组件失效或组件处于非稳定状态从而需要重新初始化。可使用计数器来跟踪这些非关键性错误。当计数器超过一预定阈值时,可通过重置设备、停顿(quiesce)设备从而可修理该设备、或隔离设备以避免未来的错误来采取纠正动作。一个问题是通信架构 ...
【技术保护点】
一种失效隔离系统,包括包括软件子组件的处理装置,该软件子组件适于接收包括真正错误消息和感应错误消息的多个错误消息,并从该感应错误消息中辨别该真正错误消息;主机适配器;以及通信架构控制器,其通过第一通信通道连接到所述主 机适配器,并通过第二通信通道连接到所述处理装置。
【技术特征摘要】
US 2004-11-18 10/991,7801.一种失效隔离系统,包括包括软件子组件的处理装置,该软件子组件适于接收包括真正错误消息和感应错误消息的多个错误消息,并从该感应错误消息中辨别该真正错误消息;主机适配器;以及通信架构控制器,其通过第一通信通道连接到所述主机适配器,并通过第二通信通道连接到所述处理装置。2.根据权利要求1的失效隔离系统,其中所述处理装置包括对称多处理器(“SMP”)复合体。3.根据权利要求1的失效隔离系统,其中所述处理装置包括阈值计数器。4.根据权利要求1的失效隔离系统,其中所述处理装置包括恢复表。5.根据权利要求1的失效隔离系统,其中所述处理装置包括架构中断寄存器且所述多个错误消息包括架构中断消息,并且所述处理装置适于将所述架构中断消息复制到所述架构中断寄存器。6.根据权利要求1的失效隔离系统,其中所述处理装置包括适配器中断寄存器且所述多个错误消息包括适配器中断消息,并且所述处理装置适于将所述适配器中断消息复制到所述适配器中断寄存器。7.根据权利要求1的失效隔离系统,其中所述处理装置包括第一存储装置且所述主机适配器包括用于记录错误信息记录(“EIR”)的第二存储装置,并且所述处理装置适于将所述EIR复制到所述第一存储装置。8.根据权利要求4的失效隔离系统,其中将第一恢复动作写到所述恢复表。9.根据权利要求8的失效隔离系统,其中将具有比所述第一恢复动作更高优先级的第二恢复动作写到所述恢复表,来替换所述第一恢复动作。10.一种隔离失效的方法,包括以下步骤检测启动事件;启动热启动过程;暂停预定时间段,以允许包括真正错误消息和感应错误消息的多个错误消息到达处理装置,该处理装置包括软件子部件;以及评估所述多个错误消息以从所述感应错误消息辨别出所述真正错误消息。11.根据权利要求10的方法,还包括在所述评估步骤之前,如果错误信息记录(“EIR”)存在,则将该错误信息记录从主机适配器复制到所述处理装置的步骤。12.根据权利要求10的方法,其中所述启动事件是架构中断。13.根据权利要求10的方法,其中所述启动事件是适配器中断。14.根据权利要求10的方法,其中所述启动事件是组件超时。15.根据权利要求10的方法,还包括将第一恢复动作写到恢复表的步骤。16.根据权利要求15的方法,还包括将具有比所述第一恢复动作更高优先级的第二恢复动作写到所述恢复表来替换所述第一恢复动作的步骤。17.一种包括数据存储介质的制造物品,所述数据...
【专利技术属性】
技术研发人员:DF德阿劳若,PM里查兹,BA里纳尔迪,TC索伦森,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。