由分布式计算机系统的一个硬件元件报告错误的系统技术方案

技术编号:2889102 阅读:196 留言:0更新日期:2012-04-11 18:40
当检测到一个错误时,由分布式计算机系统的一个硬件元件生成一个错误信息。错误信息然后被从该硬件元件转发到分布式计算机系统的一个或多个指定的处理节点。硬件元件包括,例如,适于报告检测到的错误的一个开关元件或一个通信适配器。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术通常涉及分布式计算机系统,并且尤其涉及使用这些系统的硬件组件来报告硬件组件所发现的错误。本申请包括与下面申请的主题内容相关的主题内容,下面的申请与本申请转让给同一个受让人,并且与本专利技术在同一天申请。下面所列的申请在这里全部包含进来作为参考。“由分布式计算机系统的一个硬件元件报告错误的系统”,由Desnoyers等人申请,序列号为08/831,255,(摘要号为P09-97-016)。典型地,一个分布式计算机系统包括大量的通过一个互连网络相互连接的处理器。这些处理器其中的一个具有监控计算机系统内设备故障的任务。例如,使用一个心搏型协议来定期轮询系统内的每一个设备以确定该设备是否处于工作状态。如果一个曾处于工作状态的设备不再处于工作状态,那么该处理器探查该设备以发现是否出现了错误。轮询所有设备所需要的时间随着系统规模的增长而成比例地增加。当检测到一个故障时,该处理器需要与发生故障的设备进行通信以确定故障的原因,并且启动适当的恢复方案。例如,如果在互连网络内发生了一个故障,那么处理器需要与该网络进行通信,来检索互连网络所捕获到的故障信息,并且启动适当的恢复。然而,因为不能确保在互连网络和该处理器之间存在直接的连接,因此对于这种通信通常使用替代的机制。在一个互连网络中当错误发生时,用于搜寻和检索故障信息的处理器的使用和用于检索错误信息的替代机制的进一步的使用都没有预期的有效。因此,需要一种更有效的向处理器报告错误的方法来提供服务。特别是,需要一种机制,其中报告由,例如,互连网络本身来执行,以替代处理器搜寻和检索故障信息。通过在一个分布式计算机系统中提供一种报告错误的系统,现有技术的缺点得到了克服并且提供了附加的优点。该系统包括该分布式计算机系统的一个硬件元件,该硬件元件适合于在检测到一个错误时产生一个错误信息。该硬件元件还适合于将该错误信息从该硬件元件转发到该分布式计算机系统的第一个指定的处理节点。在本专利技术的另外一种实施方式中,硬件元件包括一个开关元件和一个通信适配器二者之一。在另一种实施方式中,硬件元件进一步适用于在硬件元件接收到错误信息已经被第一个指定的处理节点接受的指示之前收集附加的错误。在另外一个例子中,硬件元件进一步适用于将错误信息从该硬件元件发送到计算机系统的第二个指定的处理节点。本专利技术的错误报告能力使不再需要监测设备以发现故障,结果减少了对于路径或路径部分的竞争。此外,本专利技术的错误报告能力预防了系统中后继的错误包的堆积,并且允许系统的其它部分正常工作。本专利技术的错误报告能力通过使用系统内的硬件来实现,而不是软件或任何处理器逻辑。另外的特征和优点通过本专利技术的技术来实现。本专利技术的其它实施方式和方面在这里被详细地描述,并且被认为是权利要求的专利技术的一部分。被认为是本专利技术的主题内容被特别指出,并且在说明书结论部分的权利要求书中被明显地予以要求。本专利技术前面的和其它的主题、特征和优点将通过下面与附图相应的详细描述而显而易见,其中附图说明图1描述了包括并使用本专利技术的报告能力的一个分布式计算机系统的一个例子。图2描述了依据本专利技术的原则图1中的分布式计算机系统的一个互连网络的一种实施方式,该分布式计算机系统中包括中间开关板。图3描述了依据本专利技术的原则的一个开关元件的一个例子。图4描述了依据本专利技术的原则,在报告由图3的开关元件检测到的错误时所使用的硬件服务逻辑的一种实施方式。图5描述了依据本专利技术的原则,在由图3的开关元件确认复原服务包的接收和附加错误的转发过程中所使用的硬件服务逻辑的一种实施方式。图6描述了依据本专利技术的原则图1的分布式计算机系统中的一个通信适配器的一个例子。图7描述了依据本专利技术的原则在报告由图6的网络适配器所检测到的错误中所使用的硬件服务逻辑的一种实施方式。依据本专利技术的原则,提供了一种报告能力,其中分布式计算机系统的硬件元件将错误状态报告给计算机系统中一个指定的处理节点。硬件元件报告错误,而无须软件或处理器逻辑。图1中描述了包括并且使用本专利技术的报告能力的分布式计算机系统的一个例子。在一种实施方式中,分布式计算机系统是由IBM公司所提供的RISC系统/6000可缩放功率并行系统,并且包括与互连网络104相连的大量的处理节点102。处理节点和互连网络的一个例子在下面予以描述。一个处理节点包括,例如,一个处理器106,如IBM公司所提供的RS/6000处理器,和一个通信适配器108,它与处理器通过例如系统输入/输出(I/O)总线109相连接。通信适配器是一个输入/输出设备,用于在系统中从一个处理器到另外一个处理器的通信并且/或者从互连网络到一个处理器的通信。通信适配器的一个例子在下面将参考图6进一步的予以描述。处理节点102与互连网络104相连,104中包括例如由IBM公司所提供的可缩放功率并行开关(SP开关)在内。下面将描述互连网络的一种实施方式,并且在下列的白皮书中也予以描述Derrick Garmire的“IBM功率并行技术摘要用于高性能通信计算的互连技术(RS/6000 SP)”(1996年6月6日)和Derrick Garmire的“RS/6000 SP高性能通信网络”(1996年6月6日),它们都全部包含在参考中。互连网络将分布式计算机系统中的处理器相互连接在一起,这样这些处理器就可以同时发送和接收信息。在一种实施方式中,互连网络104包括一个或多个开关板104,每个开关板与处理节点和/或另外的开关板相连接。例如在图1中,开关板#1与第一个处理节点相连,该节点在这里被作为初始的节点,开关板#1并且与一个或多个其它处理节点相连接。它还进一步与开关板#2相连接,目的是增加系统的可伸缩性。开关板#2与开关板#1相连接,并且与至少一个其它处理节点102相连接。在较大的配置中,也可能还包括附加的中间开关板层以进一步增加系统的可伸缩性(参考图2)。在图2中所描述的例子中,中间开关板200与位于机架204中的开关板202相连。每个机架包括例如除了开关板外还有二到十六个处理节点。中间开关板将开关板与其它开关板连接起来,而不是将开关板与处理节点连接。如图2所示,与处理节点的连接是通过开关板202,而不是通过中间开关板。回过来参考图1,在一个例子中,每个开关板110包括大量的开关元件112(例如8个),它们为每个连接到那里的节点提供连接接点,并且为其它的开关元件提供连接点。开关元件的配置允许在处理节点之间存在多条路径,这样单路径或元件故障不能够将节点彼此分隔开来。特别是,每个处理节点有两个至开关元件的连接,并且每个连接是一个输入/输出连接。依据本专利技术的原则,每个开关元件112被使用例如由分布式计算机系统内的一个指定的节点(例如初始节点)转发到该开关元件的一个开关初始化包来进行初始化。在一种实施方式中初始化服务包包括一条命令指明该包是一个开关初始化包,因此不被传送到开关网中的下一级;一条初始路径指示到系统的第一个指定处理节点(例如一个初始节点)的路径;第二条路径指示或者是到第一个指定处理节点的第二条路径或者是到第二个指定的处理节点(例如一个备份节点)的路径;该开关元件的一个标识符;和多个其它的用于开关元件的初始化数据,在本专利技术中不需要对它们进行讨论。在一个例子中,每个开关元件112是一个集本文档来自技高网...

【技术保护点】
在分布式计算机系统中报告错误的一种系统,所述的系统包括:分布式计算机系统中的一个硬件元件,它适用于在检测到一个错误时生成一个错误信息;并且所述硬件元件进一步适于从所述的硬件元件将所述错误信息转发到所述分布式计算机系统的第一个指定的处 理节点。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:克里斯廷玛丽德斯诺伊斯德里克勒鲁瓦加米雷安托万内特伊莱恩赫尔曼罗伯特弗雷德里克斯塔基弗朗西斯艾尔弗雷德坎普
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1