一种机群容错系统、装置及方法制造方法及图纸

技术编号：2819603 阅读：199 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种机群容错系统、装置及方法。该系统包括远程检查点服务器，用于响应来自故障结点的远程检查点请求，执行检查点操作；结点故障检测模块，用于监测本地结点的操作系统和指定进程的运行状态，触发远程检查点；通信系统检查点模块，用于实现通信设备的检查点，并支持通信断点恢复功能。其为并行处理的机群提供局部化的快速故障恢复，具有较低的开销和良好的可扩展性，使得百万、千万亿次规模的机群系统能够具有理想的可用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机并行处理容错
，特别是涉及一种并行处理的机群容错系统、装置及方法。
技术介绍
以机群为代表的计算机并行处理技术在现代社会中的应用已经达到了相当可观的广度和深度。作为社会信息化基础设施的重要组成部分，机群系统中的并行处理的可靠性问题己经对经济和社会产生影响。目前，随着机群系统规模的不断扩展和复杂性的逐渐提高，其并行处理的可靠性呈现下降趋势的现象已经引起了学术界和工业界的广泛关注，机群并行处理的容错技术的理论研究及其工程应用的需求日益迫切。机群是以网络互连并能协同工作的多个独立的计算机(称为机群的结点) 构成的并行计算机系统。故障、错误和失效是容错计算领域最基本的概念，是理解容错技术的基础。简而言之，失效是指一个系统偏离其正确服务这一事件，错误是指一个系统的全部状态中可能导致其后续的失效的部分，故障则是一个错误的原因。故障可能来源于一个系统的内部或者外部。如果一个故障已经导致了错误，就是处于激活(Active)状态，否则就是处于休眠(Dormant)状态。错误可以通过报错消息或者报错信号而被检测出来，己经产生但尚未被检测到的错误称为潜伏(Latent)错误。一个错误可以通过计算过程而不断变化或者在系统模块之间传播，这一过程称为错误迁移(ErrorPropagation)。目前，对于计算机系统中的软硬件故障主要有四种处理方法故障避免(FaultPrevention):提前避免故障的出现；故障容许(Fault Tolerance):在故障出现之后避免其导致服务失效；故障消除(FaultRemoval):减...

【技术保护点】
一种机群容错系统，其特征在于，包括如下功能模块：　远程检查点服务器，用于响应来自故障结点的远程检查点请求，执行检查点操作；　结点故障检测模块，用于监测本地结点的操作系统和指定进程的运行状态，触发远程检查点；　通信系统检查点模块，用于实现通信设备的检查点，并支持通信断点恢复功能。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：霍志刚，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人