容错计算机系统技术方案

技术编号:2852279 阅读:194 留言:0更新日期:2012-04-11 18:40
一种容错(FT)计算机系统,包括:第一系统;以及第二系统,配置为与所述第一系统同步操作。所述第一和第二系统中的每一个均包括:CPU;和与所述CPU相连的路由控制器。所述第一系统包括作为有效I/O设备的第一I/O设备,以及所述第二系统包括作为待机I/O设备的第二I/O设备。路由控制器控制所述CPU与所述第一I/O设备和所述第二I/O设备之间的路由。当在所述第一I/O设备中发生故障时,所述第一系统中的所述路由控制器将从所述CPU接收到的、以所述第一I/O设备为目的地的请求数据路由到所述第二I/O设备。

【技术实现步骤摘要】

本专利技术涉及一种容错(FT)计算机系统。具体地,本专利技术涉及一种用于控制FT计算机系统中的I/O设备的技术。
技术介绍
用在如交通控制、金融和股市等重要商务活动中的服务器负责社会生活的基础。因此,对于这些服务器,高可靠性和容错性是必需的。同样,在公司的商业服务器、使用因特网的主机服务器等中,由于故障而引起的服务器崩溃可能会导致严重的商业损失。因此,在较多领域中,对高可靠性服务器的需求越来越大。作为具有高可靠性的计算机系统,“容错(FT)计算机系统”是已知的。在FT计算机系统中,系统的硬件模块(如CPU和存储器)是双重的或多重的,并控制各个模块,从而与相同的时钟同步操作。当在系统的特定部分(即,一个模块)中发生故障时,将故障模块与系统逻辑分离,并由正常操作的模块继续处理。因此,改善了容错性。图1是示出了典型FT计算机系统的结构的概念图。此FT计算机系统100具有双重硬件模块和与硬件模块相连的容错控制器(FT控制器)110。在图1中,CPU 120(120a、120b)、主存储器130(130a、130b)和I/O设备140(140a、140b)是双重的。一个CPU 120a(120b)和一个主存储器130a(130b)构成一个CPU子系统150。简而言之,此FT计算机系统100是通过两个CPU子系统150双重化的。控制两个CPU子系统150与相同的时钟同步操作。而且,双重I/O设备(组)140构成了IO子系统160。FT控制器110控制CPU子系统150和IO子系统160。具体地,FT控制器110执行两个CPU子系统150之间的同步操作(两系统同步操作)的维护、模块中故障的检测、故障模块的分离控制等。通常,将FT计算机系统分为以硬件执行二重控制的部分和以软件执行二重控制的部分。例如,CPU 120和主存储器130的CPU子系统150是软件本身进行操作的基础。因此,需要以硬件对CPU子系统150进行二重控制。当在CPU子系统150中发生故障时,FT控制器110(硬件)立即从系统中分离故障CPU或存储器。因此,无需停止系统,由其余的CPU子系统150b和IO子系统160继续处理。另一方面,以软件对IO子系统160进行二重控制。例如,当在I/O设备140a中发生故障时,FT控制器110检测故障,并执行向控制I/O设备140a的软件程序(此后,称为“I/O设备驱动器”)的错误报告。此时,I/O设备驱动器停止使用故障I/O设备140a,并使用双重的不同I/O设备140b来代替它。按照这种方式,以软件执行IO子系统160中的I/O设备140间的切换。为了执行上述I/O设备140的切换控制,需要I/O设备驱动器具有识别来自FT控制器110的错误报告的功能和执行向替代I/O设备的切换处理的功能。即,用于驱动I/O设备140的I/O设备驱动器和用于总体控制驱动器的操作系统(OS)需要适应于FT计算机系统。日本未审公开专利申请(JP-A-平成9-16426)公开了一种具有两端口控制台的FT计算机中的I/O切换技术。此传统技术的目的是由单一的控制台执行监控和维护,而无需对电缆的任何连接切换。基于此传统技术的FT计算机具有两个控制台输出系统,在发生故障时,对其输入/输出总线进行切换。响应来自OS的命令,执行其输入/输出总线之间的切换。因此,在此传统技术中认为需要使用专用的OS。又及,近年来,使用英特尔兼容CPU(“英特尔”是注册商标)的所谓“开放系统”是服务器领域的趋势。作为主要趋势,将由独立硬件厂商生产的I/O设备安装在开放的PC服务器系统中,并使用由相同厂商生产的I/O设备驱动器来控制I/O设备。但是,大多数这种I/O设备驱动器并非考虑FT计算机系统而生产。在这种I/O设备驱动器中,根本没有安装I/O设备之间的切换功能。而且,在多数情况下,由OS直接访问典型安装在开放计算机系统中的I/O设备(如视频适配器(VGA视频图形适配器))。但是,实际上不能将针对容错计算机系统的修改应用于主要用在开放计算机系统中的OS。需要与开放硬件和软件系统相对应的高可靠性服务器。需要能够依据开放OS或I/O设备驱动器获得容错计算机系统的技术。具体地,为了改善开放服务器系统中的容错性和可靠性,需要能够执行针对I/O设备的二重控制的技术。结合以上描述,在日本未审公开专利申请(JP-A-平成5-94277)中公开了一种便携式计算机。此传统示例的便携式计算机具有由单色板和彩色板构成的显示单元、控制单色板的显示的单色板显示控制电路和控制彩色板的显示的彩色板显示控制电路。设置部分将选择数据设置于切换部分,所述切换部分根据选择数据切换单色板显示控制电路和彩色板显示控制电路。同样,在日本未审公开专利申请(JP-A-平成11-149457)中公开了一种机群连接多处理器系统的降级系统。此传统示例的多处理器系统具有多个CPU、用于控制多个CPU的多个CPU控制部分、以及由多个CPU共享的存储器和I/O控制部分。多个CPU和多个CPU控制部分与机群总线相连,并且多个CPU控制部分通过系统总线相连。CPU控制部分至少包含用于控制将CPU从机群总线断开的控制寄存器(作为冻结寄存器)和用于指示CPU和机群总线的连接状态的控制寄存器(作为“CPU状态寄存器”)。当机群总线上的每个CPU开始操作时,将标记写入与该CPU对应的CPU状态寄存器,以指示机群连接。然后,开始对CPU的初始诊断,当在一个CPU中检测到故障时,将该事实写入冻结寄存器。将故障CPU与机群总线逻辑断开。CPU控制部分完全不响应来自故障CPU的请求,并且进行控制,将故障CPU与系统分离。同样,在日本未审公开专利申请(JP-P2002-77186A)中公开了一种多重设备的切换单元。在此传统示例的多重设备中,将切换单元设置在连接发起设备和多重的、多个连接目的地设备之间,以选择和连接连接目的地设备之一和连接发起设备。在切换单元中,存储部分存储连接目的地设备的连接优先级。第一信号输入/输出部分与连接发起设备相连。第二信号输入/输出部分通过通信线路与多个连接目的地设备相连,并从和向连接目的地设备中特定的一个输入和输出数据。路由部分直接和间接地连接第一和第二信号输入/输出部分。选择部分选择连接目的地设备中具有最高连接优先级的一个,作为特定的连接目的地设备。而且,当根据第二输入部分的监控信号,确定在特定的连接目的地设备中产生连接故障时,选择部分选择连接目的地设备中具有比特定的连接目的地设备的连接优先级低的连接优先级的一个,以及当根据第二输入部分的监控信号,确定消除了具有较高连接优先级的连接目的地设备中的连接故障时,选择连接目的地设备中具有比特定的连接目的地设备的连接优先级高的连接优先级的一个。同样,在日本未审公开专利申请(JP-P2004-280732A)中公开了一种容错系统。在此传统示例的容错系统中,第一和第二北桥是双重(duplex)的,以及第一和第二输入/输出总线桥是双重的,并将异步接口用作第一和第二北桥与第一和第二输入/输出总线桥之间的接口。针对第一和第二北桥中的每一个,设置用于同步第一和第二北桥之间、针对异步接口的数据传输和接收的部分。
技术实现思路
因此,本专利技术的一个目的是提供一种容错(FT)计算机系统本文档来自技高网
...

【技术保护点】
一种容错(FT)计算机系统,包括:第一系统,作为有效系统,包括第一I/O设备;以及第二系统,作为待机系统,包括与所述第一I/O设备相同的第二I/O设备,所述第二系统通过链路部分与所述第一系统相连,并配置为与所述第一系统同步地 进行操作,其中所述第一和第二系统中的每一个均包括:CPU;和与所述CPU相连的路由控制器,所述第一系统中的所述路由控制器控制所述第一系统中的所述CPU与所述第一I/O设备和所述第二I/O设备之间的路由,以及   当在所述第一I/O设备之一中发生故障时,所述第一系统中的所述路由控制器将从所述第一系统中的所述CPU接收到的、以所述第一I/O设备为目的地的请求数据路由到与所述I/O设备相对应的所述第二I/O设备之一。

【技术特征摘要】
JP 2004-12-16 2004-3649771.一种容错(FT)计算机系统,包括第一系统,作为有效系统,包括第一I/O设备;以及第二系统,作为待机系统,包括与所述第一I/O设备相同的第二I/O设备,所述第二系统通过链路部分与所述第一系统相连,并配置为与所述第一系统同步地进行操作,其中所述第一和第二系统中的每一个均包括CPU;和与所述CPU相连的路由控制器,所述第一系统中的所述路由控制器控制所述第一系统中的所述CPU与所述第一I/O设备和所述第二I/O设备之间的路由,以及当在所述第一I/O设备之一中发生故障时,所述第一系统中的所述路由控制器将从所述第一系统中的所述CPU接收到的、以所述第一I/O设备为目的地的请求数据路由到与所述I/O设备相对应的所述第二I/O设备之一。2.根据权利要求1所述的容错计算机系统,其特征在于所述第一系统中的所述路由控制器包括与所述CPU相连的地址转换器;与所述CPU相连的响应数据转换器;和与所述地址转换器和所述响应数据转换器相连的路由器,当在所述第一I/O设备中发生故障时,如果接收到来自所述CPU的所述请求数据,所述地址转换器通过以表示所述第二I/O设备的设备数据代替表示所述第一I/O设备的设备数据,由所述请求数据产生转换后的请求数据,并将所述转换后的请求数据转发给所述路由器,以及所述路由器根据包含在所述转换后的请求数据中的所述设备数据,将所述转换后的请求数据路由到所述第二I/O设备。3.根据权利要求2所述的容错计算机系统,其特征在于所述设备数据是PCI层次结构中的PCI总线号、设备号和功能号。4.根据权利要求3所述的容错计算机系统,其特征在于所述第一系统中的所述路由控制器还包括寄存器,由所述地址转换器查阅,并配置用于存储所述PCI总线号、所述设备号和所述功能号。5.根据权利要求2所述的容错计算机系统,其特征在于所述设备数据是系统存储器映射空间中的地址。6.根据权利要求5所述的容错计算机系统,其特征在于所述第一系统中的所述路由控制器还包括寄存器,由所述地址转换器查阅,并配置用于存储所述地址。7.根据权利要求2到6之一所述的容错计算机系统,其特征在于当所述第二I/O设备以正常状态进行操作,并且所述响应数据转换器通过所述路由器接收到来自所述第二I/O设备的响应数据时,所述响应数据转换器通过重写部分所述响应数据,由所述响应数据产生转换后的响应数据,并向所述第一系统中的所述CPU输出所述转换后的响应数据。8.根据权利要求7所述的容错计算机系统,其特征在于所述响应数据转换器通过以另一类代码代替包含在所述响应数据中的、所述第二I/O设备的类代码,产生所述转换后的响应数据。9.根据权利要求8所述的容错计算机系统,其特征在于所述第一系统中的所述路由控制器还包括寄存器,由所述响应数据转换器查阅,并配置用于存储所述另一类代码。10.根据权利要求2到6之一所述的容错计算机系统,其特征在于所述第一系统包括第一PCI桥,作为与所述第一系统的所述路由控制器和所述第一I/O设备相连的所述第一I/O设备之一,以及所述...

【专利技术属性】
技术研发人员:阿部晋树
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1