一种机群容错系统、装置及方法制造方法及图纸

技术编号:2819603 阅读:199 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种机群容错系统、装置及方法。该系统包括远程检查点服务器,用于响应来自故障结点的远程检查点请求,执行检查点操作;结点故障检测模块,用于监测本地结点的操作系统和指定进程的运行状态,触发远程检查点;通信系统检查点模块,用于实现通信设备的检查点,并支持通信断点恢复功能。其为并行处理的机群提供局部化的快速故障恢复,具有较低的开销和良好的可扩展性,使得百万、千万亿次规模的机群系统能够具有理想的可用性。

【技术实现步骤摘要】

本专利技术涉及计算机并行处理容错
,特别是涉及一种并行处理的机 群容错系统、装置及方法。
技术介绍
以机群为代表的计算机并行处理技术在现代社会中的应用已经达到了相 当可观的广度和深度。作为社会信息化基础设施的重要组成部分,机群系统中 的并行处理的可靠性问题己经对经济和社会产生影响。目前,随着机群系统规 模的不断扩展和复杂性的逐渐提高,其并行处理的可靠性呈现下降趋势的现象 已经引起了学术界和工业界的广泛关注,机群并行处理的容错技术的理论研究 及其工程应用的需求日益迫切。机群是以网络互连并能协同工作的多个独立的计算机(称为机群的结点) 构成的并行计算机系统。故障、错误和失效是容错计算领域最基本的概念,是理解容错技术的基础。 简而言之,失效是指一个系统偏离其正确服务这一事件,错误是指一个系统的 全部状态中可能导致其后续的失效的部分,故障则是一个错误的原因。故障可 能来源于一个系统的内部或者外部。如果一个故障已经导致了错误,就是处于激活(Active)状态,否则就是处于休眠(Dormant)状态。错误可以通过报错消息或者报错信号而被检测出来,己经产生但尚未被检 测到的错误称为潜伏(Latent)错误。 一个错误可以通过计算过程而不断变化 或者在系统模块之间传播,这一过程称为错误迁移(ErrorPropagation)。 目前,对于计算机系统中的软硬件故障主要有四种处理方法 故障避免(FaultPrevention):提前避免故障的出现; 故障容许(Fault Tolerance):在故障出现之后避免其导致服务失效; 故障消除(FaultRemoval):减少故障的数量及其危害; 故障预报(FaultForecasting):预估故障的当前数量、未来的发生率以及后果。广义的容错技术可以涵盖故障、错误和失效的各种处理方法。故障容许一般是通过错误检测(Error Detection)和系统恢复而实现,其 中后者根据其处理对象可以划分为基于故障处理和基于错误处理这两种类型。根据故障、错误和失效的相互关系,错误处理是避免服务失效的关键环节。 现有的错误处理技术主要分为巻回(Rollback)、前滚(Rollforward)和补偿 (Compensation)三种策略。巻回恢复是在无法确定和排除错误原因的情况下, 将系统状态恢复到一个预先保存的正确状态重新运行,以期错误不再发生。前 滚恢复则通常基于N模冗余而实现,当通过定期的状态比较(N = 2)或者表 决(N^)发现错误之后,所有冗余模块继续运行,只利用空闲单元重新运行 上一周期的计算过程,并根据其结果判定并剔除错误的冗余模块的状态。巻回 恢复主要是基于时间冗余,而前滚恢复则需要依赖于硬件冗余。在这两种策略 中,前者的应用更为广泛。常见的进程检査点和巻回恢复就是一种典型的巻回 错误处理技术。故障可以在任何一个系统层次被引入。相应地,不同的系统层次就需要有 与之对应的容错机制。同时,任何容错机制都对其所能处理的故障或者错误有 一定的假设,比如故障类型、故障频率等因素,因此对于不同的故障类型,往 往存在不同的容错方法。于是, 一个实际的计算机系统中的失效处理常常需要 综合运用多种容错技术,并分为多个步骤或者层次进行处理。计算机的错误处 理中常用的十个步骤,依次是故障抑制(FaultContainment)、故障检测(Fault Detection)、故障屏蔽(FaultMasking)、重i式(Retry)、诊断(Diagnosis)、 重配置(Reconfiguration)、恢复(Recovery)、重启动(Restart)、修复(Repair) 和重新整合(Reintegration)。经典的容错技术包括硬件方面的三模冗余(Triple Modular Redundancy, 縮写TMR)和多模冗余(N-tuple Modular Redundancy,縮写为NMR)和软件 方面的恢复块(Recovery Blocks)、多版本程序设计(N-Version Programming)、 算法容错(Algorithm-Based Fault-Tolerance, ABFT)、软件自检等方法,以及 软件老化和再生技术、面向恢复的计算(Recovery-Oriented Computing, ROC), 失效忽略计算(Failure-Oblivious Computing)等技术。机群设计中传统的挑战是线性加速比问题。在计算粒度基本不变的情况下,当结点数增加到一定程度之后,机群的整体性能不但无法达到线性加速比, 甚至会不升反降。将机群结点的可靠性问题考虑进去,并且假设每个机群结点 的可靠性并不理想,那么,随着所用结点数量的增长,不得不担心的将不再是 系统性能是否可以保持线性增长,而是指定规模的一个计算任务能否无故障地 顺利完成。机群体系结构中内在的冗余性解决了一部分机群容错的问题。但是,机群 容错面临更多的挑战。首先,当机群系统的规模不断扩大的时候,按照统计规 律,整个系统的可靠性将不可避免地下降。第二,机群结点之间的并行性使得 完整地获取和恢复应用的状态更加困难。进程间通信的存在使并行应用中各进 程的状态之间存在着复杂的先后依赖关系,对任何单一故障的处理都需要考虑 全局状态的可恢复性。提高机群系统的可用性有两种途径 一是继续提高单个结点的可靠性,从而使系统整体的可靠性相应地提高。但鉴于机群系统一般采用COTS部件,这一方法所受的限制较多。另一途径是,着眼于系统整体的可用性,使系统在单 一结点出现的故障能够得到局部化(时间、空间)的恢复处理。在机群容错领 域常用的定期全局检查点技术可以称为"时间局部化"机群容错技术。该技术将 连续运行的机群系统从时间上分割为较短的单元,即传统的检查点间隔(CheckpointInterval)。通过在每个时间单元的开始时刻记录系统状态,使得 在每个时间单元之内发生的故障仅能破坏整个机群系统在该时间单元内的计 算结果。该技术已经被实践证明是极为有效的机群容错策略之一,但是该技术 没有实现机群故障处理的空间局部性,其开销与系统规模直接相关。可以说, 在每个检查点间隔的结束时刻为一个机群并行应用中的所有进程都执行检査 点操作有过度冗余(Aggressive Redundancy)的倾向。随着机群计算规模的不 断扩大,全局检査点的弊端逐渐变得明显,机群容错机制亟待向轻量级的方向 发展。
技术实现思路
本专利技术所要解决的问题在于提供,其为并 行处理的机群提供局部化的快速故障恢复,具有较低的开销和良好的可扩展 性,使得百万、千万亿次规模的机群系统能够具有理想的可用性。为实现本专利技术目的而提供的一种机群容错系统,包括如下功能模块 远程检査点服务器,用于响应来自故障结点的远程检查点请求,执行检査 点操作;结点故障检测模块,用于监测本地结点的操作系统和指定进程的运行状 态,触发远程检查点;通信系统检查点模块,用于实现通信设备的检査点,并支持通信断点恢复 功能。所述的机群容错系统,还包括下列功能模块-并行应用进程管理器,用于为故障时检査点系统提供被监测应用的进程信 息,并管理进程恢复过程;检査点文件服务器,用于存储检査点文件,并在故障时检查点的恢复过本文档来自技高网
...

【技术保护点】
一种机群容错系统,其特征在于,包括如下功能模块: 远程检查点服务器,用于响应来自故障结点的远程检查点请求,执行检查点操作; 结点故障检测模块,用于监测本地结点的操作系统和指定进程的运行状态,触发远程检查点; 通信系统检查点模块,用于实现通信设备的检查点,并支持通信断点恢复功能。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:霍志刚
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1