双机冗余容错系统及其冗余切换方法技术方案

技术编号:2824178 阅读:221 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种双机冗余容错系统及其冗余切换方法。该系统包括A机、B机,AB机内的冗余切换控制单元将各自产生的切换信号通过冗余切换选择单元的选择而将产生的最终控制信号传至被控单元。冗余切换控制单元包括仲裁切换单元、心跳收发单元、加断电单元和监视器单元。该方法包括:双机上电,上电策略确定主从机;判断双机状态;若双机无故障,则判断系统所处任务段:若一般任务段,则工作机对备份机断电,实行冷备策略;若关键任务段,则工作机对备份机上电,实行热备策略;若有一单机故障:故障可恢复,则恢复,反之,则进入单机状态。本发明专利技术系统结构简单,信号传输可靠,本发明专利技术方法控制简单,极大降低系统故障率,起到很好的容错效果。

【技术实现步骤摘要】

本专利技术涉及一种冗余容错系统及其切换方法,具体地说,是涉及一种双机 冗余容错系统以及对该双机冗余容错系统中的双机进行冗余切换的方法。技术背景对于以计算机作为核心的系统而言,很重要的一点是该系统的某个计算机 出现故障后,系统仍能继续工作。为了解决这个问题,目前普遍采取的措施是 为该系统设计冗余系统,以支持容错操作。考虑到成本和使用面积等因素,一 般情况下,对该系统进行动态双模冗余设计。动态双模冗余系统包括一个工作 机和一个备份机,它们的职能可以互换。在这种双机冗余设计中,需要确定一 种机制,以使在各阶段内具有作为主控制器的控制器和作为备份而处于空闲状 态的控制器,同时,还需要确定当单个控制器产生故障时,正常的控制器应作 出怎样的反应,以保证系统的正常运行。这种机制需要在工作机与备份机之间 有大量的电路连接,以进行信号交互,是一套复杂的机制。传统的动态双模冗余系统的设计较为单一, 一般只考虑双机同时工作状 态,以及单机发生不可恢复故障时的状态,而没有考虑到控制器工作的复杂环 境和对功耗的特殊要求。同时,为了降低设计的复杂度,传统动态双模冗余系 统的故障检测切换方法比较单一, 一般为 一套监视电路观察工作机的状态, 在工作机故障时进行切换。这种故障检测切换方法一方面忽视了备份机的工作 状态,当工作机故障时,可能备份机处于更糟的故障状态,另一方面,该方法 不能防止单一的监视电路出错,会造成切换逻辑的误操作。在这种传统的切换 方法设计中,冗余设备间加入了专门的切换部件,由这个切换部件接收并监视 双机的状态信号,根据接收状态信号来决定主从机的选择,同时,给出互斥的 信号来选择工作机输出。但是,当这个切换部件发生错误时,便会引起单点故 障,导致系统无法工作。后来,冗余设备之间开始采用了一种状态信号线直连 的方法,各冗余设备根据这些状态信号来确定系统的工作状态。这种方法防止 了切换部件故障带来的隐患,但是,这种状态信号线直连方式会导致冗余信号 较多,电路连接很复杂。另外,传统的容错冗余系统设计对故障检测关注不高。 但是,故障检测信号是是否进行切换的重要依据,如果故障检测发生了问题, 系统可能会处于死锁或乒乓切换,从而故障将难以判断。
技术实现思路
本专利技术的目的在于提供一种,该冗余 容错系统结构简单,信号传输可靠,该冗余切换方法控制简单,可极大降低系 统故障率,可起到很好的容错效果。为了达到上述目的,本专利技术采用以下技术方案一种双机冗余容错系统,其特征在于它包括A机、B机、冗余切换选择单元和被控单元,A机和B机内均设有一冗余切换控制单元,A机和B机内的冗余切换控制单元分别将各自产生的切换信号传输至冗余切换选择单元,冗余切换选择单元通过两冗余切换控制单元传输的切换信号对A机和B机分别输 出的控制信号进行选择后产生一最终控制信号,并将该最终控制信号传输至被控单元,其中该冗余切换控制单元包括仲裁切换单元、心跳收发单元、加断电单元和监视器单元,A机的仲裁切换单元分别与A机的心跳收发单元、加断 电单元和监视器单元相连,该A机的心跳收发单元与B机的心跳收发单元相 连,该A机的加断电单元与B机的电源单元相连,该A机的监视器单元与A 机的CPU相连,该A机的CPU与A机的仲裁切换单元相连,该A机的仲裁 切换单元与B机的仲裁切换单元相连,该A机的仲裁切换单元输出一切换信 号;B机的仲裁切换单元分别与B机的心跳收发单元、加断电单元和监视器单 元相连,该B机的加断电单元与A机的电源单元相连,该B机的监视器单元 与B机的CPU相连,该B机的CPU与B机的仲裁切换单元相连,该B机的 仲裁切换单元输出一切换信号。一种双机冗余容错系统的冗余切换方法,其特征在于它包括步骤 步骤A:双机同时上电,通过上电策略确定工作机、备份机; 步骤B:判断双机状态若双机无故障,则跳至步骤C;若工作机或备份 机故障,则跳至步骤D;步骤C:判断系统所处任务段若系统工作在一般任务段,则工作机通过 自身的加断电单元对备份机断电,系统实行冷备策略,并返回步骤B;若系统 工作在关键任务段,则工作机通过自身的加断电单元对备份机上电,系统实行 热备策略,并返回步骤B;步骤D:判断故障是否可恢复若故障可恢复,则进行故障恢复,并返回 步骤B;若故障不可恢复,则系统进入单机状态。 本专利技术具有如下优点本专利技术双机冗余容错系统可在一般任务段和关键任务段两种状态下工作,且在各状态下发生不同故障时,系统通过本专利技术冗余切换方法进行及时故障处 理,以保证系统正常工作或工作在故障安全侧,防止引起毁灭性故障。在本专利技术中,当系统采用冷备策略和处于单机状态时,单机的冗余切换控 制单元采用看门狗自检测一种故障检测手段。当系统采用热备策略时,每个单 机的冗余切换控制单元采用两种故障检测手段, 一种为看门狗自检测,另一种 为对机心跳收发单元监视。这两种检测手段起到了故障检测功能冗余的效果, 防止了由于硬件链路问题使得个体故障检测单元本身错误影响整个系统正常 运行的现象发生。而且,对心跳收发单元和自检测设计了优先级判断,对同一 错误引起的多个故障信号进行处理,优先级低的信号被屏蔽,优先级高的信号 传输至仲裁切换单元,防止了信号冲突死锁。本专利技术双机冗余容错系统结构简单,信号传输可靠,本专利技术冗余切换方法 控制简单,可极大降低系统故障率,可起到很好的容错效果。本专利技术双机冗余 容错系统及其冗余切换方法适用于运行可靠性要求高(即故障情况下仍需连续 运行)的环境。 附图说明图1是本专利技术双机冗余容错系统的组成示意图; 图2是双机的冗余切换控制单元的连接示意图 图3是本专利技术冗余切换方法的流程示意图。具体实施方式下面结合附图对本专利技术作进一步描述。首先需要提及的是,在本专利技术中,设定系统处于工作状态时,A机和B机 中的其中一个必定是可以正常工作的,即系统不会出现两个单机均发生故障的 情况。在下文中,工作机即为主机,备份机即为从机。A机被描述为本机时, B机为对机,同样地,B机被描述为本机时,A机为对机。如图1和图2所示,本专利技术双机冗余容错系统包括A机100、 B机200、 冗余切换选择单元300和被控单元400。 A机100内设有一冗余切换控制单元 110, B机200内设有一冗余切换控制单元210, A机100内的冗余切换控制单 元110和B机200内的冗余切换控制单元210分别将各自产生的切换信号传输 至冗余切换选择单元300,冗余切换选择单元300通过两冗余切换控制单元110 和210传输的切换信号对A机100的CPU 120和B机200的CPU 210分别输 出的控制信号进行选择后而产生一最终控制信号,并将该最终控制信号传输至 被控单元400,被控单元400根据该最终控制信号进行操作。A机100内的冗余切换控制单元IIO包括仲裁切换单元111、心T^收发单 元112、加断电单元113和监视器单元114, B机200内的冗余切换控制单元 210包括仲裁切换单元211、心跳收发单元212、加断电单元213和监视器单元 214。 A机100的仲裁切换单元111分别与A机100的心跳收发单元112、加 断电单元113和监视器单元114相连,该A机100的心跳收发单元112与B 机200的心跳收发单元212相连,该A机100的加本文档来自技高网
...

【技术保护点】
一种双机冗余容错系统,其特征在于:它包括A机、B机、冗余切换选择单元和被控单元,A机和B机内均设有一冗余切换控制单元,A机和B机内的冗余切换控制单元分别将各自产生的切换信号传输至冗余切换选择单元,冗余切换选择单元通过两冗余切换控制单元传输的切换信号对A机和B机分别输出的控制信号进行选择后产生一最终控制信号,并将该最终控制信号传输至被控单元,其中:该冗余切换控制单元包括仲裁切换单元、心跳收发单元、加断电单元和监视器单元,A机的仲裁切换单元分别与A机的心跳收发单元、加断电 单元和监视器单元相连,该A机的心跳收发单元与B机的心跳收发单元相连,该A机的加断电单元与B机的电源单元相连,该A机的监视器单元与A机的CPU相连,该A机的CPU与A机的仲裁切换单元相连,该A机的仲裁切换单元与B机的仲裁切换单元相连,该A机的仲裁切换单元输出一切换信号;B机的仲裁切换单元分别与B机的心跳收发单元、加断电单元和监视器单元相连,该B机的加断电单元与A机的电源单元相连,该B机的监视器单元与B机的CPU相连,该B机的CPU与B机的仲裁切换单元相连,该B机的仲裁切换单元输出一切换信号。

【技术特征摘要】
1. 一种双机冗余容错系统,其特征在于它包括A机、B机、冗余切换选择单元和被控单元,A机和B机内均设有一冗余切换控制单元,A机和B机内的冗余切换控制单元分别将各自产生的切换信号传输至冗余切换选择单元,冗余切换选择单元通过两冗余切换控制单元传输的切换信号对A机和B机分别输出的控制信号进行选择后产生一最终控制信号,并将该最终控制信号传输至被控单元,其中该冗余切换控制单元包括仲裁切换单元、心跳收发单元、加断电单元和监视器单元,A机的仲裁切换单元分别与A机的心跳收发单元、加断电单元和监视器单元相连,该A机的心跳收发单元与B机的心跳收发单元相连,该A机的加断电单元与B机的电源单元相连,该A机的监视器单元与A机的CPU相连,该A机的CPU与A机的仲裁切换单元相连,该A机的仲裁切换单元与B机的仲裁切换单元相连,该A机的仲裁切换单元输出一切换信号;B机的仲裁切换单元分别与B机的心跳收发单元、加断电单元和监视器单元相连,该B机的加断电单元与A机的电源单元相连,该B机的监视器单元与B机的CPU相连,该B机的CPU与B机的仲裁切换单元相连,该B机的仲裁切换单元输出一切换信号。2、 根据权利要求1所述的双机冗余容错系统,其特征在于所述冗余切 换控制单元还包括优先级单元,该优先级单元接收本机的心跳收发单元输出的 信号和对机的仲裁切换单元输出的信号,该优先级单元将处理后产生的信号输 出至本机的仲裁切换单元。3、 一种双机冗余容错系统的冗余切换方法,其特征在于它包括步骤步骤A:双机同时上电,通过上电策略确定工作机、备份机;步骤B:判断双机状态若双机无故障,则跳至步骤C;若工作机或备份 机故障,则跳至步骤D;步骤C:判断系统所处任务段若系统工作在一般任务段,则工作机通过 自身的加断电单元对备份机断电,系统实行冷备策略,并返回步骤B;若系统 工作在关键任务段,则工作机通过自身的加断电单元对备份机上电,系统实行 热备策略,并返回步骤B;步骤D:判断故障是否可恢复若故障可恢复,则进行故障恢复,并返回 步骤B;若故障不可恢复,则系统进入单机状态。4、 根据权利要求3所述的冗余切换方法,实特征在于所述上龟策略进 一步包括步骤步骤1-1:双机上电后,各单机均默认系统指定的一单机为工作机,继续 步骤1-2;步骤1-2:各单机开始初始化并自检测若其中一单机自检测失败,则该 自检测失败的单机进入死循环,等待对机处理;若双机均自检测成功,则继续 步骤1-3;步骤l-3:双机各自设置将要交互的状态信号,继续步骤l-4;步骤1-4:经随机时间的延迟后,各单机读取对机的状态信号,先读取到 对机状态信号的单机被确定为工作机,被确定为工作机的单机设置当班标志信 号,并将该当班标志信号传输至自身的仲裁切换单元,以进行自身为工作机的 控制权确认;后读取到对机状态信号的单机通过对机仲裁切换单元传输的当班 标志信号判断出对机己经成为工作机后放弃抢权,且向被确定为工作机的仲裁 切换单元返回确认备份机信号而成为备份机,继续步骤1-5;步骤1-5:双机稳定工作一段时间后,工作机通过自身的加断电单元对备 份机断电,系统实行冷备策略。5、 根据权利要求4所述的冗余切换方法,其特征在于所述步骤l-2中, 若其中一单机自检测失败,则自检测成功的单机通过自身的加断电单元对该自 检测失败的单机进行断电和上电操作,如果该自检测失败的单机连续三次上电 自检测都不正确,则该自检测失败的单机被认为是失效,系统进入单机状态。6、 根据权利要求3至5中任一项所述的冗余切换方法,其特征在于所述冷备策略进一步包括步骤步骤2-1:判断工作机的工作状态若工作机发生影响系统任务完成的错 误,则进...

【专利技术属性】
技术研发人员:孙汉旭贾庆轩党崇伦叶平曹红玉
申请(专利权)人:北京邮电大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1