容错计算机系统及其再同步方法和再同步程序技术方案

技术编号:2872132 阅读:165 留言:0更新日期:2012-04-11 18:40
一种锁步同步容错计算机系统,该系统包括多个具有一处理器和一存储器的计算模块,其中每个计算模块在互相同步中执行同一指令串,其中:    当每个所述计算模块的各个所述处理器访问外部总线的状态下,检测到不一致时,如果在包括每个所述计算模块的系统中没有检测到故障时,通过调整访问的响应时间来恢复在每个所述计算模块中的同步,该访问是每个所述处理器通过一中断来作为同步控制指令执行的。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种锁步(lock-step)同步容错(fau1t-tolerant)计算机系统,该系统以总体相同的方式通过在互相时钟同步的多个计算模块处理同一指令串。更特别地,它涉及一种容错计算机系统和高速再同步控制方法,当在计算模块中出现同步错误时(不再锁步),该方法加速实现再同步处理。2.
技术介绍
对于常规的锁步同步容错计算机系统,当在同时执行同一指令串的多个计算模块中,由于故障或其它外部或内部因素,检测出一计算模块具有与其它计算模块不同的输出时,采取如下的对策。在下文中,将检测出的没有与其它计算模块同步操作的计算模块称为失步(step-out)状态下的计算模块。更特别地,采取这种措施,即一旦切断其锁步脱离工作状态的计算模块,以及根据引起失步的因素按照需要替代计算模块或当替代不必须时,根据需要实施再初始化处理或类似处理来使计算模块进入到工作状态中。在常规的锁步同步容错计算机系统中,在重新恢复到工作状态时,因为不管在锁步状态的计算模块已经被替代与否,对于与继续又来实施同一处理的操作的其它计算模块同步的计算模块来说,由处于工作状态的计算模块支持的所有存储数据都被复制到一存储器中,该存储器由在其重新恢复的时间来重新恢复的计算模块支持。在常规的锁步同步容错计算机系统中,在失步状态下执行替代计算模块,以及根据引起失步和类似故障的部分来执行再初始化处理过程之后,当所述的计算模块又恢复到工作状态时,在工作状态的计算模块被中断一较长时间段。更特别地,常规锁步同步容错计算机系统具有一个问题是当失步状态下的计算模块要再恢复处理时,整个容错计算机系统将中断一较长时间段的工作(通常为3-5秒或相当于若干分钟的时间)。这是由于为了使失步状态下的计算模块恢复到工作状态,所有的存储器内容不断从继续工作的计算模块中复制到要恢复的计算模块中。当正常的计算模块的工作在复制过程中继续时,正常的计算模块的存储内容在复制过程中也可能有变化,所以复制不能正确地执行。为了避免这种情况,将在工作状态的计算模块临时停下来以阻止它的存储内容的更新。因为在计算模块中的存储容量一天可达到几个千兆字节,所以复制整个存储区域需要一段较长的时间。在锁步同步容错计算机系统中,由于各种原因在计算模块中出现锁步状态。第一种情况是出现在计算模块中的固定故障。在这种情况下,具有故障的计算模块应当被替代(replace)并且当要被替代的计算模块恢复到工作系统中时,需要复制在工作状态下的计算模块的存储器中的所有数据。在锁步同步容错计算机系统中,因为除了上述固定故障外,虽然其工作是正常的,或因为由α射线或类似物的作用引起存储器的自动校正中断故障,但是由于在计算模块中每个单元的制造过程不同,计算模块在不同的时间工作,可出现锁步状态。在这些情况中,因为固定故障不是出现在计算模块本身中,模块基本上不需要替代,并通过将它的处理与其它工作中的计算模块的处理再同步以恢复上述计算模块,所以整个容错计算机系统能被恢复到正常的工作状态中。
技术实现思路
本专利技术的一个目的是提供一种容错计算机系统及其再同步方法和再同步程序,它们可以使得由除了固定故障之外的其它原因引起其锁步脱离的计算模块以比常规系统具有较高的速度再恢复到工作状态,由此由恢复处理引起的系统工作临时中断的时间可大大减少。本专利技术的另一个目的是提供一种容错计算机系统,及其再同步方法和再同步程序,它们能通过减少上述再恢复处理的时间来实现系统利用率的提高。根据本专利技术的第一方面提供一种锁步同步容错计算机系统,该系统包括多个具有一处理器和一存储器的计算模块,其中每个计算模块在相互同步中执行同一指令串,其中当在每个计算模块中的各个处理器访问外部总线的状态下,检测不一致时,如果在包括每个计算模块的系统中没有检测到故障(fau1t)时,通过调整访问的响应时间来恢复在每个计算模块中的同步,其中该访问是每个处理器通过一中断来作为同步控制指令执行的。在优选的结构中,容错计算机系统进一步包括一容错检测器,用于监控在整个系统中故障的存在/不存在;一总线监控器,用于监控每个计算模块的处理器对外部总线的访问并且当在各个计算模块的输出中检测到不一致时,如果故障检测器没有检测出故障时,将一中断通知每个处理器,以及一同步控制器,通过调整来自由中断引起的每个处理器的访问响应时间来再同步每个计算模块。在另一个优选的结构中,当在各个计算模块的输出中检测到不一致时,如果故障检测器没有检测出故障时,总线监控器用预定的任务来中断每个处理器以再同步计算模块,该任务是在同步控制器中对预定资源执行访问的任务,且当从所有的处理器中接收到对该资源的访问时,同步控制器将把一响应同时传送到所有的计算模块中。在另一个优选的结构中,提供多对总线监控器,故障检测器和同步控制器。在另一个优选的结构中,总线监控器,故障检测器和同步控制器都在外围设备控制单元中提供,该外围设备控制单元用于控制外围设备并通过PCI桥连接到计算模块的外部总线上。根据本专利技术的第二方面,一种在锁步同步容错计算机系统中的再同步方法,该系统包括多个具有一处理器和一存储器的计算模块,其中每个计算模块在相互同步中执行同一指令串,该方法包括步骤在每个计算模块的各个处理器访问外部总线的状态下,当检测不一致时,如果在包括每个计算模块的系统中没有检测到故障时,对所有的处理器产生一中断,并引起每个处理器来执行同步控制指令以调整来自每个处理器的访问响应时间,由此引起每个计算模块恢复同步操作。在优选结构中,该再同步方法进一步包括步骤在包括每个计算模块的整个系统中检测故障的存在/不存在,监控每个计算模块的处理器对外部总线的访问,当在各个计算模块的输出中检测到不一致时,如果在系统中没有检测到故障时,将一中断通知每个处理器,并引起每个处理器来执行时钟同步控制指令,以调整来自每个处理器的访问响应时间,由此引起每个计算模块恢复同步操作。在另一个优选结构中,再同步方法进一步包括步骤当在各个计算模块的输出中检测到不一致时,如果在系统中没有检测到故障时,,用预定任务中断每个处理器,用于再同步各个计算模块,该任务是对预定资源执行访问的任务;排队来自每个处理器的对资源的访问,并当接收到来自处理器的所有访问时,响应同时来自所有计算模块的访问。根据本专利技术的另一个方面,一种用于执行锁步同步容错计算机系统的再同步处理的再同步程序,其中该系统包括多个具有一处理器和一存储器的计算模块,其中每个计算模块在互相同步中执行同一指令串,该程序包括下列操作程序在每个计算模块的各个处理器访问外部总线的状态下,当检测不一致时,如果在包括每个计算模块的系统中没有检测到故障时,对所有的处理器产生一中断,并引起每个处理器来执行同步控制指令,以调整来自每个处理器的访问响应时间,由此引起每个计算模块恢复同步操作。在优选结构中,再同步程序进一步包括下列操作程序在包括每个计算模块的整个系统中检测故障的存在/不存在,监控每个计算模块的处理器对外部总线的访问,当在各个计算模块的输出中检测到不一致时,如果在系统中没有检测到故障时,将一中断通知每个处理器,并引起每个处理器来执行时钟同步控制指令,以调整来自每个处理器的访问响应时间,由此引起每个计算模块恢复同步操作。在另一个优选结构中,再同步程序进一步包括下列操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:山崎茂雄爱野茂幸
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1