【技术实现步骤摘要】
计算机容错系统及方法
本专利技术涉及计算机
,具体而言,涉及一种计算机容错系统及方法。
技术介绍
在计算机中,一般可分为CPU、存储器、I/O等模块,因此可通过在这些模块上的冗余来实现故障的检测和处理。通过使用相同的冗余硬件来处理相同的指令,同时辅以配套的软件容错方式,大大提高系统连续运行的稳定性。使用相同的、冗余的硬件组件处理相同的指令,同时使用软件采用热插拔、内存镜像、负载均衡、多点终止失效、多通道I/O等方式,大大增强了系统连续运行的稳定性。其中应用最多的方法是采用二冗余度或多冗余度系统实现系统备份、恢复和不间断运行。但是,当两个模块或者多个冗余模块均发生故障时系统将无法免除故障正常工作,容错能力有限。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种计算机容错系统及方法。本专利技术实施例提供的一种计算机容错系统,该系统包括:多个容错单元,每个容错单元与至少一个相邻的容错单元通信连接形成自动容错网络结构,其中:所述容错单元包括:任务分配器及出错感知器;每个容错单元的所述出错感知器用于实时监测该容错单元的工作状态是否正常;当检测到任意容错单元工作状 ...
【技术保护点】
一种计算机容错系统,其特征在于,该系统包括:多个容错单元,每个容错单元与至少一个相邻的容错单元通信连接形成自动容错网络结构,其中:所述容错单元包括:任务分配器及出错感知器;每个容错单元的所述出错感知器用于实时监测该容错单元的工作状态是否正常;当检测到任意容错单元工作状态异常时,所述任务分配器发送广播以查找可用的空闲容错单元;当接收到至少一个空闲容错单元对所述广播的响应时,所述任务分配器选择其中一个空闲容错单元并将所述工作状态异常的容错单元的任务分配给选择的其中一个空闲容错单元。
【技术特征摘要】
1.一种计算机容错系统,其特征在于,该系统包括:多个容错单元,每个容错单元与至少一个相邻的容错单元通信连接形成自动容错网络结构,其中:所述容错单元包括:任务分配器及出错感知器;每个容错单元的所述出错感知器用于实时监测该容错单元的工作状态是否正常;当检测到任意容错单元工作状态异常时,所述任务分配器发送广播以查找可用的空闲容错单元;当接收到至少一个空闲容错单元对所述广播的响应时,所述任务分配器选择其中一个空闲容错单元并将所述工作状态异常的容错单元的任务分配给选择的其中一个空闲容错单元。2.如权利要求1所述的计算机容错系统,其特征在于,该计算机容错系统的容错单元还包括:出错感知器,用于当其容错单元工作状态异常时,向相邻的容错单元发送广播请求,以使所述相邻的容错单元的任务分配器发送广播以查找可用的空闲容错单元。3.如权利要求1所述的计算机容错系统,其特征在于,每个容错单元设置有预留路由端口,所述空闲容错单元用于通过所述预留路由端口和与所述工作状态异常的容错单元的任务分配器建立通信连接。4.如权利要求1所述的计算机容错系统,其特征在于,每个容错单元与相邻的六个容错单元通信连接。5.如权利要求1所述的计算机容错系统,其特征在于,该计算机容错系统的容错单元还包括:电源管理器,用于当容错单元工作状态异常时,停止为所述工作状态异常的容错单元供电。6.如权利要求1所述的计算机容错系统,其特征在于,所述任务分配器还用于对响应广播的空闲容错单元进行选择,从所述空闲容错单元中选择距离所述工作状态异常的容错单元近的空闲容错单元。7.一种计算机容错系统,其特征在于,该计算机容错系统包括多个容错单元,每个容错单元与至少一个相邻的容错单元通信连接形成自动容错网络结构...
【专利技术属性】
技术研发人员:刘力政,金怡,贡力,王腾,邹卓,郑立荣,
申请(专利权)人:复旦大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。