超级计算机中通过动态重新划分的容错制造技术

技术编号:3334219 阅读:210 留言:0更新日期:2012-04-11 18:40
通过提供额外冗余备用处理器组和通过设计系统使得这些额外的处理器组可以与发生硬件故障的任何组交换而使多处理器并行计算机容忍硬件故障。这一交换可以在软件控制下进行,从而允许整个计算机承受硬件故障,但是在备用处理器交换后,对软件来说仍然象是一个原来的、全部起作用的系统。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及在并行计算机互联网络中通过软件控制的动态重新划分提供容错。
技术介绍
巨大类的重要计算可以由巨型并行计算机系统执行。这种系统包括许多同样的计算节点,每一个这样的节点通常包括一个或者多个CPU、存储器、和一个或者多个网络接口来连接它与其它节点。在于2001年2月24日递交的、名为“Massively ParallelSupercomputer”的相关美国临时专利申请60/271,124中说明的计算机使用芯片上系统(SOC)技术来建立具有高吞吐量的可升级的合算的计算系统。SOC技术已经使其适于使用嵌入部件库在单个芯片上建立整个多处理器节点,包括具有集成的一级超高速缓冲存储器的CPU内核。这种封装技术极大地减少了一个节点的部件数目,允许建立可靠的大型机器。专利技术概述本专利技术通过动态重新划分提供在超级计算机中的容错。通过提供另外几组冗余备用处理器和通过设计系统使得这些额外的处理器组可以与发生硬件故障的任何组交换,使多处理器并行计算机容忍硬件故障备用处理器。这一交换可以在软件的控制下进行,从而允许整个计算机承受硬件故障,但是在与备用处理器交换后对软件仍然象是一个原来的、全部起作用的系统。附图简要说明本领域技术人员结合附图参考后面对几个实施例的详细说明,可以更容易理解通过动态重新划分在超级计算机中提供容错的本专利技术的上述目的和优点,其中在几个视图中使用相同的附图标记表示相似的元件,附图中附图说明图1显示了并行计算机的一个非常简化的8节点部分和在这8个节点之间的环型(torus)链接。它是全部节点阵列的环型链接的一部分显示,其中,每一节点实际有在+和-x、y、z方向上的6个环型链接,并且链接在每一逻辑方向上(x、y或z)从最高标号节点覆盖到最低标号节点的,以便为系统中的所有节点维持在6个方向上的6个环型链接。图2是巨型并行超级计算机的全局组合树的一个非常简化的表示,并且是一个完全的全局组合树的一部分显示,完全的全局组合树连接在计算节点的整个划分上的所有节点。图3显示了控制重新划分的链接芯片的操作。图4可以概念性地视为巨型并行超级计算机的平面图,并且显示了由8个通道分开的每行有8个计算机架的9行,其中每一行内的8个机架中的每一个包括两个中平面(midplane),每一中平面包括8×8×8个计算节点。图5显示了通过连接相邻中平面的电缆路由选择环型信号进入和离开一个链接卡,通过该链接卡,然后进入和离开在当前中平面上的环型。链接ASIC可选地连接当前中平面上的3维8×8×8环型到较大的机器上的环型。图6显示了通过连接相邻中平面的电缆路由选择全局树信号进入和离开一个链接卡,通过该链接卡,然后进入和离开中平面计算ASIC,所述树信号是全局组合树网络的信号。链接ASIC和顶级计算ASIC共同决定当前中平面上的树如何被连接到较大系统中的全局组合树。图7显示了通过连接相邻中平面的电缆路由选择中断信号进入和离开一个链接卡,通过该链接卡ASIC和FPGA,然后进入和离开该中平面,所述中断信号是全局中断信号网络的信号。本专利技术的详细描述在美国临时申请60/271,124中说明的巨型并行超级计算机说明了具有(x,y,z) (这里x=64,y=32,z=32)计算节点的巨型并行超级计算机,这些节点由几个分开的通信网络连接。这些网络中的第一个是3维(3D)环型,其中每一个计算节点由在+和-x、y、z方向中的6个链接连接到它的6个逻辑上相邻的最近的邻居计算节点,并且每一计算节点有6个双向环型端口。该巨型并行超级计算机包括64×32×32个计算节点,其中,每一计算节点包括一个具有两个处理器的ASIC,它的一个处理器作为巨型并行超级计算机的一部分执行处理,而第二处理器执行消息传递操作。图4可以被概念性地视为是巨型并行超级计算机的平面图,并且显示了由8个通道分开的9行计算机架,以方便服务。每一行中的9个机架中的每一个大约有冰箱大小,并且包含两个中平面。每一中平面是一个基本构造块,并且包括8×8×8个计算节点,其中每一计算节点包括一个多处理器,如上所述。物理机器结构最紧密地与3D环型绑在一起。这是一个简单的3维最近邻居互联,它在边缘上被“覆盖”。所有6个最近的环型邻居是等距的,除了对于“飞行时间”的差别,诸如存在在计算节点ASIC的不同机架之间,以使代码容易书写和优化。因此每一节点支持6个独立的双向最近邻居链接。图1显示了一个并行超级计算机环型的8个节点和在这8个节点之间的链接的非常简化的视图,并且是全部节点阵列的一部分,其中每一节点实际上有在+和-x、y、z方向中的6个环型链接。这些链接在每一逻辑方向(x,y或z)从编号最高的节点覆盖到编号最低的节点,以便为在该系统中的所有节点维持在6个方向上的6个环型链接。图1还示意地显示了一个x,y,z坐标系,其与图4的x,y,z坐标系一致。巨型并行超级计算机具有计算电路卡和链接电路卡,它们插入到中平面中。电路卡以2×2×2子立方块连线,而中平面,每一机架有两个,被连线为8×8×8的子立方块。运行的64k机器是64×32×32环型,虽然为提供冗余以补偿故障部件该机器被物理实现为72×32×32环型,但是其中另外的8×32×32个节点为冗余的目的提供,以提供额外冗余备用处理器组。除了每一节点到6个最近的邻居节点的6个环型链接外,巨型并行超级计算机包括两个另外完全分开的通信链接网络。第二通信链接网络是全局组合链接树,其如图2和图6所示。第三通信链接网络是一组全局中断信号,如图7所示。组合链接树和全局中断信号在它们的树结构上彼此相似,并在机器的整个划分(64×32×32个计算节点)上提供通信,这两者都在下面说明。图2是巨型并行超级计算机的全局组合树的一个非常简化的表示,它延伸到整个机器,允许数据从任何节点发送到所有其它节点(广播),或节点的一个子集。也可以计算全局和、最小值和最大值。消息传递在全局组合树上得到支持,并在每一计算节点内由第二处理器控制,允许独立于该计算节点进行加强的操作,像大家对大家的通信。根据本专利技术,多处理器并行计算机通过提供额外的冗余备用处理器组和通过设计系统使得这些额外的处理器组可以与经历硬件故障的任何组交换,实现对硬件故障的容错。这种交换可以在软件控制下,从而允许整个计算机承受硬件故障,但是在交换备用处理器后对软件来说似乎仍然是原来的、完全起作用的系统。系统重新划分在这里说明的巨型并行超级计算机中,有3个主要的分开的互联网络可以从这一动态重新划分中受益3维环型,全局组合树,和全局中断组。巨型并行超级计算机被组织为每一中平面有512个多处理器(8×8×8个节点)的组,具有链接芯片,它控制在中平面之间的电缆上的信号。链接芯片(每一链接电路卡6个芯片)是允许系统软件重新配置的主要方式。巨型并行超级计算机逻辑上可以由软件控制重新划分。这允许在物理上由电缆连接到一起作为一个系统的大的机架组(其在图4所示)在逻辑上被分成多个子系统。每一个这些逻辑上被分开的子系统然后可以同时运行不同的代码,或者某些被分开的子系统可以被维护而其它子系统进行计算。因此逻辑上的重新划分便利了代码开发和系统维护。图3显示了并且下面的部分说明了控制重新划分的链接芯片的操作。随后的部分详细说明可能的子划分的类型本文档来自技高网...

【技术保护点】
一种用于在包括多个并行处理器的并行计算机系统中提供容错的方法,以使该计算机系统容忍硬件故障,包括:给该计算机系统提供额外的冗余备用处理器组;设计该计算机系统,使得可以切换该冗余备用处理器组以取代经历硬件故障的计算机系统的处理 器组运行。

【技术特征摘要】
US 2001-2-24 60/271,1241.一种用于在包括多个并行处理器的并行计算机系统中提供容错的方法,以使该计算机系统容忍硬件故障,包括给该计算机系统提供额外的冗余备用处理器组;设计该计算机系统,使得可以切换该冗余备用处理器组以取代经历硬件故障的计算机系统的处理器组运行。2.如权利要求1的方法,其特征在于所述切换在软件控制下执行,从而允许整个计算机系统承受硬件故障,并且在切换到备用处理器组后该计算机系统对于软件来说看上去像完全起作用和运行着的计算机系统。3.如权利要求1的方法,其特征在于所述计算机系统包括一个巨型并行计算机系统,它包括多个基本相同的计算节点,每一计算节点包括一个或者多个CPU、存储器、和一个或者多个连接它与其它计算节点的网络接口。4.如权利要求1的方法,其特征在于所述计算机系统包括一个a×b×c计算节点的阵列,其被连接为为3维环型,其中,每一计算节点由在+和-x、y、z方向的6个链接,包括覆盖链接,连接到6个相邻的计算节点。5.如权利要求4的方法,其特征在于每一计算节点包括带有一个多处理器的ASIC,其中一个处理器作为巨型并行超级计算机的一部分执行处理,和...

【专利技术属性】
技术研发人员:陈东保罗W科特尤斯艾伦G加拉托德E塔肯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1