大规模并行计算机系统上的故障恢复以处理节点故障而不结束执行的作业技术方案

技术编号:4458384 阅读:247 留言:0更新日期:2012-04-11 18:40
一种方法和装置,用于在并行计算机系统上从软故障进行故障恢复,而不结束正在节点分区上执行的作业。在优选实施例中,服务节点上的故障硬件恢复机构使用心跳监视器来确定何时出现节点故障。在可能的情况下,重置出现故障的节点并使用软件重新加载所述节点,而不结束由包含所述出现故障的节点的分区正在执行的软件作业。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及并行计算系统上的故障恢复,更具体地说,涉及大 恥漠并行超级计算机上的故障恢复以处理节点故障而不结束正在执行的作 业。
技术介绍
超级计算机不断^A以应对复杂的计算作业。这些计算机对于从事高性能计算(HPC)应用的科学家尤为有用,所述应用包括生命科学、金 融建模、流体力学、量子化学、分子动力学、天文和空间探索以及气象建 模。超级计算机开发者已专注于大规模并行计算机结构来针对不断增加的复杂计算需求解决此需要。正在由国际商业机器公司(IBM)开发的一种此类大规模并行计算机 是蓝色基因系统。蓝色基因系统是一种可伸缩的系统,其中最大计算节点 数为65,536。每个节点都包括单个ASIC (专用集成电路)和存储器。每 个节点典型地都具有512兆字节或1千兆字节的本地存储器。全部计算机 将容纳在密集布置在公共位置并使用若干网络连接在一起的64个机架或 机拒中。每个机架都具有32个节点板,每个节点板具有32个节点,并且 每个节点具有2个处理器。蓝色基因超级计算机的65,536个计算节点和1024个I/O处理器同时 布置成逻辑树网络和逻辑三维环网。所述逻辑树网络是在集合网络拓朴之 上的逻辑网络。蓝色基因可以被描述为具有I/O节点表面的计算节点核心。 每个I/O节点处理64个计算节点的输入和输出功能。I/O节点没有本地存 储装置。I/O节点通过逻辑树网络连接到计算节点并且通过其内置的千兆5位以太网,还具有功能性广域网能力。节点可以被分配成多个节点分区, 以便可以在节点分区内的一组蓝色基因节点上执行单个应用或作业。计算机系统中的软故障是并非由于反复发生的硬件故障或硬故障造成 的错误或故障。诸如Ot粒子和噪声之类的随机事件都可以导致软故障。在 多数计算机系统中,此类软故障十分罕见并且可以以传统方式来处理。在 类似蓝色基因的大M^莫并行计算机系统中,由于系统的复杂性以及系统中 计算节点的数量,软故障和硬故障的问题显著增加。此外,在现有4支术中, 一个节点中的故障会导致计算机系统的整个分区变得不可用,或导致需要 中止或重新启动正在分区上执行的作业。由于计算机系统停机时间和重新启动作业会浪费宝贵的系统资源,如 果没有一种从由软故障导致的系统故障更有效恢复的方法,则并行计算机 系统将继续经受低效的硬件利用和不必要的计算机停机时间。
技术实现思路
根据优选实施例,描述了一种方法和装置,用于从软故障导致的并行 计算机系统上的单个节点故障进行故障恢复,而不结束正在节点分区上执 行的作业。在优选实施例中,服务节点上的故障硬件恢复机构使用心跳监 视器来确定何时出现节点故障。在可能的情况下,重置出现故障的节点并 使用软件重新加载所述节点,而不结束由包含所述出现故障的节点的节点 分区正在执行的软件作业。所披露的实施例涉及蓝色基因架构,但可以在具有多个布置在网络结 构中的处理器的任何并行计算机系统上实现。优选实施例对于大规模并行计算机系统尤其有益。如附图示出的,从以下对本专利技术优选实施例的更具体的描述,本专利技术 的上述和其他特性和优点将是显而易见的。附图说明以下将结合附图描述本专利技术的优选实施例,其中相同的标号表示相同6的元素,这些附图是图1是根据优选实施例的大恥漠并行计算机系统的方块图2是根据优选实施例的大,并行计算机系统中的计算节点的方块图3是根据优选实施例的节点重置硬件的方块图4是根据优选实施例的设置大^M莫并行计算机系统的计算节点上的 心跳定时器的方法流程图;以及图5是根据优选实施例的大规模并行计算机系统上的故障节点的故障 恢复的方法流程图。具体实施例方式本专利技术涉及一种装置和方法,用于在并行计算机系统的节点上从软故 障进行故障恢复而不结束包括该故障节点的节点分区上正在执行的作业。 将根据由国际商业机器公司(IBM )开发的蓝色基因/L大规模并行计算机 来描述优选实施例。图1示出了表示诸如蓝色基因/L计算机系统的大^M莫并行计算机系统 100的方块图。蓝色基因/L系统是一种可伸缩的系统,其中最大计算节点 数为65,536。每个节点都具有专用集成电路(ASIC) 112,其也称为蓝色 基因/L计算芯片112。所述计算芯片结合了两个处理器或中央处理单元 (CPU )并且安装在节点子卡114上。所述节点典型地具有512兆字节的 本地存储器。节点板120容纳32个节点子卡114,每个节点子卡114都具 有节点IIO。因此,每个节点板具有32个节点,每个节点具有2个处理器 以及每个处理器的关联存储器。机架130是包含32个节点板120的机壳。 每个节点板UO都借助中板连接器134连接到中板印制电路板132中。中 板132在机架内部并且未在图1中示出。全部蓝色基因/L计算机系统将容 纳在64个机架130或机拒中,每个机架130或机拒中具有32个节点板120。 全部系统将具有65,536个节点和131,072个CPU ( 64个机架x 32个节点 板x 32个节点x 2个CPU )。蓝色基因/L计算机系统结构可以被描述为具有I/O节点表面的计算节 点核心,其中由具有连接到服务节点140的I/O处理器170的每个I/O节 点处理到1024个计算节点110的通信。I/O节点没有本地存储装置。I/O 节点通过逻辑树网络连接到计算节点并且通过千兆位以太网(未示出), 还具有功能性广域网能力。千兆位以太网连接到1/0处理器(或蓝色基因 /L链路芯片)170,后者位于节点板120上并处理从服务节点160到多个 节点的通信。蓝色基因/L系统具有在I/0板(未示出)上的连接到节点板 120的一个或多个I/O处理器170。 I/O处理器可以;故配置为与8、 32或64 个节点通信。服务节点通过与计算节点上的链路卡通信来使用千兆位网络 控制连通性。到I/O节点的连接类似于到计算节点的连接,除了 I/O节点 不连接到环网以外。再次参考图1,计算机系统100包括服务节点140,后者处理向节点加 载软件和控制整个系统的运行。服务节点140典型地是具有控制台(未示 出)的微型计算机系统,如运行Linux的IBM pSeries服务器。服务节点 140借助控制系统网络150连接到计算节点110的机架130。控制系统网络 为蓝色基因/L系统提供了控制、测试以及启动M设施。控制系统网络150 包括各种为大^U莫并行计算机系统提供必要通信的网洛接口 。以下进一步 描述了网络接口。服务节点140管理专用于系统管理的控制系统网络150。控制系统网 络150是专用100 Mb/s以太网,后者连接到位于节点板120上并处理从服 务节点160到多个节点的通信的Ido芯片180。此网络有时4皮称为JTAG 网络,因为其使用JTAG协议进行通信。通过与服务节点通信的JTAG端 口来管理节点板120上的计算节点110的所有控制、测试和启动。以下参 考图2进一步描迷了此网络。蓝色基因/L超级计算机通过若干附加的通信网络来通信。65,536个计 算节点同时布置成逻辑树网络和物理三维环网。逻辑树网络以二进制树结 构连接计算节点,以便每个节点都与一个父节点和两个子节点通信。环网 以类似三维网格的结构逻辑地连接计算节点,使得每个计算节点都能够与其在计算机区段中的最接近的6个邻居通信。其他连接到节本文档来自技高网
...

【技术保护点】
一种并行计算机系统,包括: 多个计算节点,每个计算节点均具有用于重置所述计算节点的网络硬件部分的重置硬件,所述重置硬件与用于重置所述计算节点的其余部分的重置硬件分离; 服务节点,用于通过网络控制所述计算节点的操作,所述服务节点包 括检测出现故障的计算节点的故障硬件恢复机构; 并且其中所述故障硬件恢复机构重置所述出现故障的计算节点的所述其余部分而不重置所述网络硬件部分,以便从所述出现故障的计算节点上的故障恢复。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:D达灵顿PJ麦卡西A彼得斯A西德尼克
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1