【技术实现步骤摘要】
基于核内外协同的高可用计算机系统故障处理方法及装置
本专利技术涉及计算机系统的高可用管理
,具体涉及一种基于核内外协同的高可用计算机系统故障处理方法及装置。
技术介绍
计算机系统的可用性是评价一个计算机系统稳定可靠的指标,其通常通过平均无故障时间来进行度量。平均无故障时间越长,则该计算机系统的可用性就越高。影响计算机系统可用性的因素既有软件方面也有硬件方面。软件故障通常指计算机系统的程序或软件因为某种因素破坏导致无法正常工作或影响正常使用,软件故障的影响域一般为软件自身以及依赖于此软件的其它软件或程序。硬件故障通常指计算机系统的物理硬件因为某种因素破坏导致无法正常工作或影响正常使用,硬件故障对计算机系统影响较大,严重时会导致系统岩机。现有技术的计算机系统对于硬件故障的检测依赖于硬件驱动程序,而对于软件故障,通常采用定时轮询机制完成服务状态检测。完成故障检测后,立即按照驱动或程序默认策略进行故障处理,并记录各自的处理日志。但是,现有技术的计算机系统在高可用管理上存在以下问题:1、计算机系统独立处理与报告软件和硬件故障,缺乏软硬件故障统一管理;2、传 ...
【技术保护点】
一种基于核内外协同的高可用计算机系统故障处理方法,其特征在于实施步骤如下:1)在操作系统内核外检测包含系统服务故障和应用服务故障在内的服务故障生成故障报告并通过所述故障报告接口输出,同时在操作系统内核中检测硬件故障生成故障报告并通过在操作系统内核外建立的故障报告接口输出;2)在操作系统内核外检测故障报告接口的故障报告,在收到故障报告后对故障报告进行分析,根据分析结果在操作系统内核中对硬件故障对应的硬件进行故障处理,或者在操作系统内核外对服务故障对应的服务进行故障处理,对故障处理记录日志并向管理员发送通知,然后根据预设的规则判断是否需要进行双机热备,如果需要双机热备则通知指定 ...
【技术特征摘要】
1.一种基于核内外协同的高可用计算机系统故障处理方法,其特征在于实施步骤如下: 1)在操作系统内核外检测包含系统服务故障和应用服务故障在内的服务故障生成故障报告并通过所述故障报告接口输出,同时在操作系统内核中检测硬件故障生成故障报告并通过在操作系统内核外建立的故障报告接口输出; 2)在操作系统内核外检测故障报告接口的故障报告,在收到故障报告后对故障报告进行分析,根据分析结果在操作系统内核中对硬件故障对应的硬件进行故障处理,或者在操作系统内核外对服务故障对应的服务进行故障处理,对故障处理记录日志并向管理员发送通知,然后根据预设的规则判断是否需要进行双机热备,如果需要双机热备则通知指定的双机热备软件进行双机热备。2.根据权利要求2所述的基于核内外协同的高可用计算机系统故障处理方法,其特征在于:所述步骤I)中在操作系统内核外检测包含系统服务故障和应用服务故障在内的服务故障生成故障报告并通过所述故障报告接口输出具体是指: . 1.1.1)在操作系统内核外以轮询的方式对操作系统中系统服务和应用服务进行状态检测,如果任意系统服务或者应用服务出现异常状态,则判定发生服务故障; . 1.1.2)在判定发生服务故障后,根据系统服务或者应用服务出现异常状态的信息生成故障报告,将所述故障报告通过所述故障报告接口输出。3.根据权利要求2所述的基于核内外协同的高可用计算机系统故障处理方法,其特征在于,所述步骤I)中在操作系统内核中检测硬件故障生成故障报告并通过所述故障报告接口输出的详细步骤如下: . 1.2.1)通过预先分布在故障注入接口、故障中断处理例程和硬件驱动中的多个硬件状态监测点检测对应的硬件状态信息,如果任意硬件状态监测点检测的硬件状态发生异常,则所述硬件状态监测点根据预设的规则收集对应硬件的现场数据作为硬件故障数据; . 1.2.2)将硬件故障数据进行封装生成故障报告并存入预设的故障消息队列; . 1.2.3)根据故障消息队列对存入故障消息队列的故障报告进行调度分发; . 1.2.4)利用线程将调度输出的故障报告通过所述故障报告接口输出。4.根据权利要求3所述的基于核内外协同的高可用计算机系统故障处理方法,其特征在于,所述步骤2)的详细步骤如下:. 2.1)在操作系统内核外基于守护进程检测故障报告接口的故障报告; . 2.2)在操作系统内核外在收到故障报告后对故障报告进行分析,判断故障报告的故障类型,如果故障类型为服务故障,则根据服务依赖关系描述对服务故障对应的系统服务或者应用服务进行恢复;如果故障类型为硬件故障,则判断是否需要对故障报告对应的硬件进行故障硬件隔离,如果需要进行故障硬件隔离则跳转执行步骤2.3),否则判断是否需要对故障报告对应的硬件进行故障硬件恢复,如果需要进行故障硬件恢复则跳转执行步骤.2.4),否则跳转执行步骤2.5);. 2.3)在需要对故障报告对应的硬件进行故障硬件隔离时,在操作系统内核中对故障报告对应的硬件进行故障硬件隔离;. 2.4)在需要对故障报告对应的硬件进行故障硬件恢复时,在操作系统内核中对故障报告对应的硬件进行故障硬件恢复;.2.5)对故障处理记录日志; . 2.6)向管理员发送通知; .2.7)根据预设的规则判断是否需要进行双机热备,如果需要双机热备则通过调用指定的双机热备软件的通知插件,通知所述双机热备软件进行双机热备。5.一种基于核内外协同的高可用计算机系统故障处理装置,其特征在于包括: 故障统一报告子系统,用于在操作系统内核...
【专利技术属性】
技术研发人员:廖湘科,颜跃进,李俊良,刘晓建,杨沙洲,姚望,汪黎,秦莹,周强,王非,
申请(专利权)人:中国人民解放军国防科学技术大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。