信息处理系统及其控制方法、控制程序以及冗余控制装置制造方法及图纸

技术编号:2849552 阅读:178 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种用于信息处理系统的控制方法,该信息处理系统包括多个进行相同操作的处理装置,该控制方法包括以下步骤:如果在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息出现不一致,则将电源电压波动较大的处理装置从信息处理系统中分离开。

【技术实现步骤摘要】

本专利技术涉及一种信息处理装置的控制方法、信息处理装置、信息处理系统的控制程序及包含冗余的控制装置,并且具体地涉及一种用于信息处理系统的有效技术,通过使用包含冗余的硬件进行相同的信息处理来提高抗故障能力。
技术介绍
在需要具有高可靠性的服务器系统中,具有镜像功能的信息处理系统为人们所知,为了提高抗故障能力,设置有双重的诸如处理器之类的硬件,使它们执行相同的信息处理,如果在一个处理器中出现异常,则通过使用正常运行的镜像处理器的输入及输出信号来继续信息处理。然而,在两个处理器的输出信号彼此不一致的情况下,通过处理器的异常检测,在双机并行的任一处理器中没有检测到上述错误(异常情况),例如每个处理器处理运行中的输入及输出数据奇偶性错误、ECC错误、超时错误和等等,用以识别这些处理器中哪一个处理器异常的判断标准就不存在。因此,如果注重可靠性的话,系统就需要停下来,但系统的可用性下降。这已经成为一个技术难题。同时,与逻辑电路如处理器的运行速度相比,电源的异常检测一般花费很长的时间。应此,如果异常系统通过使用电源异常(包括电源电压下降、引起处理器不能运行)的检测信号进行检测,则这种技术无法纠正上述输出信号不一致的错误,而两个系统似乎都是正常的。例如,专利文献1公开了一台高可靠性的计算机,包括具有相同结构的第一和第二CPU;时钟单元,用于为这些CPU供应相同频率和相位的时钟和复位信号;双重系统适配器(DSBA),用于连接这些CPU与输入/输出装置;以及方框组间通信单元,用于改变CPU状态等等(在两个CPU之间),其中两个CPU按照时钟单元的时序同步执行程序,如果一个CPU出现故障,则双重系统适配器分离它,并使另一个没有故障的CPU继续运行。通过使用来自两个CPU中正常运行的CPU的信号,主用的DSBA监测并比较两个CPU,访问如存储器、I/O等系统。DSBA分别从两个CPU接收传送的信号,进行ECC校验、奇偶校验等检验,来确定CPU的正常状态,并且监测用于通知CPU检测到的异常的错误信号。当检测到异常,则DSBA关掉判断为异常的系统,仅由正常的CPU继续处理。如果从CPU0和1传送的两个信号出现不一致,然而对于任一CPU都没有检测到异常,则可选择因不能继续而停止系统,或者只能选择使用两个CPU中的任何一个来继续处理。在专利文献1公开的系统中,如果由CPU内部半导体的故障或者软件错误引起内部电路中出现差异,则内置错误检测电路能够通过奇偶校验等检测出来。或者,如果在CPU与DSBA之间的总线中出现错误,则通过输入到DSBA或者CPU的总线的奇偶校验或者ECC校验能够检测出错误。如果为CPU运行供电的电源出现异常,就影响到整个CPU,从而CPU中的故障检测电路等不能正确发挥作用,因此不能输出错误信号,然后可能发生输出到控制器的数据,就好像CPU正常运行时的一样。在电源出现故障的情况下,电压急剧下降,CPU的供电电压降到正常运行的最低电压以下,通常仅在几毫秒之后CPU就进入严重异常状态,因此在接下来的时间周期内该CPU可以判断为异常。但是,如果通过硬件进行了镜像(例如双CPU),则需要在两个系统中的CPU输出不同的信号时才能立即判断错误,而不是在几毫秒之后。因此,需要在电源故障冲击CPU电路的故障之前检测电源异常。同时,近年来CPU功耗有大幅增长,需要一个CPU提供一路电源,因此需要在实际的镜像设备中考虑电源故障的影响。顺便提及,专利文献2公开了一种安装锁存器的技术,以保存从电压异常检测器的输出,该电压异常检测器监测数据处理系统中处理装置的电源电压,该数据处理系统包括多个处理装置以及用于监测这些处理系统的监测装置,当在处理装置中检测到异常时,通过参考锁存器由监测装置确定电源电压的异常,能够确定电压异常检测与处理装置故障之间的同步,并且完成对电压异常与处理装置异常之间的因果关系的说明。尽管通过使用专利文献2公开的技术,可以确定电压异常与处理装置相应故障之间的因果关系,但是这里没有公开在这种故障情形中分辨有故障的CPU的技术,即如上所述的多个CPU的处理结果出现不一致时,而每一个CPU又没有检测到故障的情形。同样,专利文献3公开了一种多元系统,包括,在每个多元化处理装置中,电源状态保持单元,用于监测各自装置的输入电源并存储瞬间电源中断发生时所对应的电源再次上电时的通、断状态;以及控制单元,用于比较其它处理装置包含的电源状态保持单元,对在其它装置中发现的无响应做出响应,判断无响应是否由瞬间电源中断对应的系统重新启动引起,并复位上述其他处理装置包含的电源状态保持单元的状态。专利文献3与专利文献2一样,也没有公开在这种故障情形中分辨有故障的CPU的技术,即如上所述的多个CPU的处理结果出现不一致时,而每一个CPU又没有检测到故障的情形。此外,专利文献4公开了一种计算机系统,包括装配计算机系统的电路,以及故障管理系统,用于独立检测每个电路的故障状态并把每个电路与故障状态联系起来。然而,专利文献4也没有公开在这种故障情形中分辨有故障的CPU的技术,即如上所述的多个CPU的处理结果出现不一致时,而每一个CPU又没有检测到故障的情形。日本特许公开No.8-190494[专利文献2]日本特许公开No.sho57-141731[专利文献3]日本特许公开No.3-266131[专利文献4]日本特许公开No.10-143387(USP6.000.040)
技术实现思路
本专利技术的目的为在该情形下提高信息处理系统的可用性,即多个处理装置的输出结果出现不一致时,而信息处理系统中的每个处理装置又没有检测到故障的情形;并且旨在通过使用冗余的多个处理装置进行相同的处理来实现高可靠性的目标。本专利技术第一方面是提供一种用于信息处理系统的控制方法,该信息处理系统包括多个进行相同操作的处理装置,控制方法中包括以下步骤如果在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息的项目出现了不一致,则执行将电源电压波动较大的处理装置从信息处理系统分离开的步骤。本专利技术第二方面是提供一种用于信息处理系统的控制方法,该信息处理系统在多个进行相同操作的处理装置中配备了电源监测器单元,控制方法中包括以下判断步骤,即信息处理系统的电源电压波动较大时,即使在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息的项目出现了不一致,则认为在电源电压波动较大的处理装置中出现故障。本专利技术第三方面是提供一种用于信息处理系统的控制方法,该信息处理系统配备了电源监测器单元,该电源监测器用于通过阈值检测多个第一和第二处理装置中的每一个处理装置的电源电压的波动,并将其输出为信息处理系统中的电压监测器信号,该信息处理系统包括多个进行相同处理的第一和第二处理装置,该控制方法包括以下步骤即使在每个第一或第二处理装置中没有检测到错误,而来自第一或第二处理装置的各条输出信息的项目出现了不一致,则参考从电压监测器单元输出的、第一和第二处理装置中任一个处理装置的电压监测器信号,并将电源电压表现异常的第一或第二处理装置从中分离出来。本专利技术的第四方面是提供一种用于信息处理系统的控制方法,其使多个第一和第二处理装置进行相同的信息处理,以便选择使用处于无故障运行状态的第一或第二处理装置,该控制方法包括本文档来自技高网
...

【技术保护点】
一种用于信息处理系统的控制方法,该信息处理系统包括多个进行相同操作的处理装置,该控制方法包括以下步骤:如果在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息的项目出现了不一致,则将电源电压波动较大的处理装置从信息处理系 统分离开。

【技术特征摘要】
JP 2005-3-17 2005-0777601.一种用于信息处理系统的控制方法,该信息处理系统包括多个进行相同操作的处理装置,该控制方法包括以下步骤如果在每个处理装置中没有检测到错误,而来自多个处理装置的各条输出信息的项目出现了不一致,则将电源电压波动较大的处理装置从信息处理系统分离开。2.根据权利要求1所述的用于信息处理系统的控制方法,其中所述错误包括所述的每个处理装置的内部错误,以及相应于每个处理装置与输入/输出数据相关的ECC校验错误或者奇偶校验错误。3.根据权利要求1所述的用于信息处理系统的控制方法,其中阈值设置在所述电源电压的额定值与所述处理装置正常运行的工作电压值之间,并且使用所述阈值作为参考判断所述电源电压波动的幅度。4.一种用于信息处理系统的控制方法,该系统设置有电源监测器单元且具有多个进行相同操作的处理装置,该控制方法包括以下步骤如果来自多个处理装置的各条输出数据出现不一致,而在每个处理装置中没有检测到错误,则认为在电源电压波动较大的处理装置中出现了故障。5.一种用于信息处理系统的控制方法,该系统设置有电压监测器单元,用于通过阈值检测多个第一和第二处理装置中的每一个处理装置的电源电压的波动,并将该波动输出为信息处理系统中的电压监测器信号,该信息处理系统包括多个进行相同处理的第一和第二处理装置,该控制方法包括以下步骤如果来自第一和第二处理装置的各条输出信息的项目出现不一致,而在第一和第二处理装置的任一个中没有检测到错误,则参考从电压监测器单元输出的、第一和第二处理装置中任一个处理装置的电压监测器信号,并将电源电压表现异常的第一或第二处理装置从中分离出来。6.一种用于信息处理系统的控制方法,该系统使多个第一和第二处理装置进行相同的信息处理,以便选择使用处于无故障运行状态的第一或第二处理装置,该控制方法包括第一步,判断除了电源电压之外,与第一和第二处理装置相关的错误校验项目是否正常;第二步,如果错误校验项目表现正常,则判断来自第一和第二处理装置的各个输出是否一致;以及第三步,如果在第二步中其各个输出出现不一致,则基于根据第一和第二处理装置中任一个的电源电压波动值的错误判断,选择使用显示“无异常”状况的第一或第二处理装置。7.根据权利要求6所述的用于信息处理系统的控制方法,其中在所述第一步使用的所述错误校验项目包括各所述第一和第二处理装置的内部错误,以及与相应于各第一和第二处理装置的输入/输出数据相关的ECC校验错误或者奇偶校验错误。8.根据权利要求7所述的用于信息处理系统的控制方法,其中在所述第三步中基于所述电源电压波动判断错误时,如果电源电压位于一设置在电源电压的额定值与所述第...

【专利技术属性】
技术研发人员:佐藤启治
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1