容错计算机系统技术方案

技术编号:2886685 阅读:244 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种容错计算机,它在硬件时钟级使用冗余表决,以检测和校正单事件干扰(SEU)和其它随机错误。在一个优选实施例中,计算机(30)包括以严格的“锁步”操作的四个或更多商用处理单元(CPU)(32),它们的到系统存储器(46)和系统总线(12)的输出(33,37)由可以用定制(custom)集成电路(34)实现的门阵列(50)表决。定制存储器控制器(18)与系统存储器(46)和系统总线(12)连接。在每个CPU时钟周期表决每次写/读计算机(30)内的存储器(46)的地址和数据(35,37)。表决状态和控制电路(38)“读”表决的状态,并且使用硬件和软件控制CPU的状态。一致CPU(32)使用多数表决信号(35),以继续处理操作,而不中断。系统逻辑选择最好时机,通过再同步所有CPU(32)、对故障计算机断电或切换到备用计算机(30)、复位和重新引导替换的CPU(32),来从检测的故障恢复。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及高性能容错计算机处理器领域,特别是,本专利技术在硬件时钟级提供冗余表决方法和装置。本专利技术可用来检测和校正计算机中的差错,尤其是远程安装的计算机,诸如在轨道上的空间飞行器中的计算机差错。专利技术背景在地球上和空间中的自然辐射环境经常引起计算机中使用的半导体器件的短期和长期劣变。这种危害对于需要无故障操作的计算机是一个问题。除了这些辐射影响,计算机芯片还由于未检测的缺陷和随着时间的发展产生的弱点而经受随机错误。在半导体封装物中的微量放射性材料也可能引起故障。当远程环境中的计算机必须长时间运行时,或在这些器件必须长时间无故障运行的地方,尤其需要保护系统免受故障或错误。远程或易损坏环境包括远程石油平台、潜艇、飞机和偏僻场所诸如南极。在地球轨道和地球轨道之外运行的系统尤其易受这种辐射损伤。宇宙射线,尤其是范艾伦辐射带附近空间中高能粒子的存在能够产生称为单事件效应(single event effect,SEE)或单事件干扰(single event upset,SEU)的干扰。地球磁场偏转这些粒子,并且改变它们的能级和属性。地球磁场也捕获从太阳和其它星球向地球行进的带电粒子。一些没有由地球磁场捕获的粒子由该场引向极地附近我们的大气层。这些粒子能够穿透卫星上的电子器件。当高能粒子和γ射线穿透半导体器件时,它们在计算机电路内沉积电荷,并且产生瞬态过程和/或噪声。这个现象能够“干扰”存储器电路。一种类型的干扰出现在当由于辐射使存储在芯片的存储器中数据的单个位改变其值时。在这种情况下,“1”的逻辑值能够改变到“0”的逻辑值,反之亦然。干扰通常可定义为部件的误状态输出。该输出可包括一个或更多个信号位。辐射还能够导致芯片中电路的“死锁(Latchup)”。死锁是半导体的一种电并状态,其中由于高能粒子导致在半导体电路内产生电荷的沉积,器件的输出被驱动和保持在饱和态。死锁状态的发生原因可以仅仅是临时干扰。如果关掉电源然后再加电,部件可以正常工作。部件的干扰率取决于芯片的结构特征,包括其尺寸、工作电压、温度和内部电路设计。对于特定部件的干扰率可以为从对于商用一兆位随机存取存储器芯片(RAM)的每天10个到对于辐射硬化的一兆位RAM的每2800年1个的范围。辐射硬化部件是已经特别设计并且构建以防止辐射损伤的器件。这些器件往往比常规器件昂贵和慢。它们通常落后于最新技术水平1到3年。目前在地面上常规应用中使用的计算机芯片实际上通常不受宇宙辐射的威胁。这种免除性是由于地球大气层提供的保护。然而,也有某些地面使用的计算机芯片受到辐射干扰。在半导体封装物中的微量放射性材料能够引起干扰。从诊断或治疗医疗设备发射的辐射能够类似地影响半导体部件。随着器件变得更复杂,来自大气宇宙辐射线透射的次级和三级粒子将使它们受到干扰。在Catherine Barillot等的论文、题为《商用空间飞行器异常现象和单事件效应发生的综述(Review of Commercial Spacecraft Anomalies and Single-Event-Effect Occurrences)》中,描述了自从1975年在空间中已经观察到的干扰事件。追踪和分析了这些事件和它们的起因。给出数据,该数据示出了在TDRS卫星上遇到的干扰数遵循宇宙射线随太阳周期的调整。Colorado大学的L.D.Akers发表了关于干扰的论文、题为《微处理器技术和单事件干扰易感性(Microprocessor Technology and Single Event UpsetSusceptibility)》。作者指出当前采用大功率微电路控制空间飞行器各方面的卫星更加易受重离子引起的SEU的损害。他预测低功率和高速度的微器件的出现,再加上来自大的太阳耀斑的粒子的可望增加,将导致SEU的更高发生率。他相信小卫星的设计者将需要实现SEU减低技术,以保证未来卫星任务的成功。先前设法减轻影响计算机芯片的辐射损伤已经获得了各种结果。关于容错计算机的工作主要在高级例如在寄存器级处理差错检测。在IEEE 1984年第152至157页C.M.Krishna等的论文、题为《在冗余实时系统中的同步和故障屏蔽(Synchronization and Fault-Masking in Redundant Real-TimeSystems)》中,描述了在出现“有害”错误时许多个锁相时钟的硬件同步和软件同步。作者描述了简单的硬件表决方案,其中时钟的输出值与参考时钟的输入信号比较。非故障时钟被锁定相位。当处理器出现故障时,如果备件可用,它们被备件替换。此方法应用到很多具有多个时钟的冗余计算机,这里多个时钟用相近的同步工作。Krshna等还描述了使用软件算法使具有其自己时钟的很多个处理器的系统能以相近的同步工作。象Krishna等使用的软件解决方案在软件块级采用表决程序。这些解决方案通常涉及在高级比较计算机输出,看每个单独的计算机是否与其它计算机一致。这种系统为达到高的冗余度在重量、体积、成本和功耗方面都付出了不小的代价。Krishna等没有谈到系统的瞬时干扰的问题。作者也没有谈到被限制在处理器的任何一个部件内的故障问题。在诸如Krishna等所描述的系统中对故障的认可意指整个器件已经出现故障。但是辐射干扰不一定导致器件故障。干扰状态能够是暂时的。在由Johns Hopkins大学应用物理实验室发表的论文、题为《卫星系统中单事件干扰和死锁敏感的器件(Single Event Upset and Latchup SensitiveDevices in Satellite Systems )》中,Richard M.Maurer和James D.Kinnison认识到单事件干扰和死锁的危害。他们提供判决树作为帮助,以从设计中消除单事件效应敏感部件,或“原样(as-is)”使用SEE敏感部件,以在所述部件将起作用的电路设计中提供某些保护措施。在1975年12月的IEEE可靠性文集、R-24卷第5号中出版的FrancisMather和Paulo T.de Sousa的文章、题为《通用模块式冗余系统的可靠性模拟和分析(Reliability Modeling and Analysis Of General Modular RedundantSystems)》中,他们解释硬件冗余已经用来设计容错数字系统。他们描述了冗余模块的多数表决和作为硬件冗余结构的四线逻辑(每个硬件门由四个门替换)。1986年8月25日,在Santa Cruz的Califomia大学计算机科学学院第16期年报中,E.J.McClusky发表了题为《硬件容错(Hardware Fault Tolerance)》的论文。McClusky描述了硬件容错的基本概念和技术。一种这样的技术是“差错屏蔽”,即防止差错出现在系统输出处的能力。按照McClusky,用“大量冗余”实现差错屏蔽。系统输出由各信号的表决来确定,当无差错时,这些信号是相同的。冗余的通常形式是三模块冗余、四部件、四线和表决逻辑。McClusky报告表决逻辑包括将一模块的所有重复件连接到一表决器。每个模块的输出在传送到系统其它部件之前通过表决器。表决在整个系统中的高级进行。四线逻辑被描本文档来自技高网...

【技术保护点】
一种容错计算机系统(10),包括:多个同步操作的中央处理单元(CPU)(22),所述多个CPU(22)的每一个的每个操作步骤并行完成,并且在所述CPU(22)的每个时钟周期与所述多个CPU(22)的其它的每一个操作步骤基本上同时进行,所 述多个CPU(22)的每一个具有CPU输入(14)和CPU输出(15);表决器(16),连接到每个所述CPU输入(14)和每个所述CPU输出(15);所述表决器(16)使用所述CPU输出(15)的冗余表决,以检测在所述多个CPU(2 2)中任何一个CPU(22)中的差错和错误,该出错CPU输出(15)与所述多个CPU(22)的多数的所述CPU输出(15)不一致;和由所述表决器(16)在每个时钟周期一个与另一个地比较每个所述CPU输出(15)。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:安德鲁J沃德罗普
申请(专利权)人:通用动力信息系统公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1