提高计算机系统稳定性的方法及计算机系统技术方案

技术编号:7185551 阅读:355 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种提高计算机系统稳定性的方法及计算机系统,提高计算机系统稳定性的方法包括:计算机系统在启动或运行时,收集所述计算机系统的设备产生的错误数据;将所述错误数据存储到非易失性存储器中;所述计算机系统重启时,根据所述错误数据对产生所述错误数据的设备进行状态恢复处理。通过在计算机系统运行中将错误数据记录到非易失性存储器中,并在重新启动过程中读取非易失性存储器中的错误数据对计算机系统中对应的设备进行状态恢复处理,解决了计算机系统在重启后设备状态初始化导致的计算机系统之前对一些异常或预测会损坏的设备的禁用、隔离等处理失效,直接导致系统稳定性的降低的问题,提高了计算机系统的稳定性。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及计算机技术,特别涉及一种提高计算机系统稳定性的方法及计算机系统
技术介绍
由于高端容错计算机系统承载着金融、电信、航空、电力等行业的关键业务 (Mission Critical),需要保证365天M小时不间断的运行,并保证数据的正确性, 因此需要具备高度的稳定性、可用性与可服务性(Reliability, Availability and Serviceability,RAS)特性。具体来说,稳定性要求计算机能够持续运转,自动检测和纠正系统错误。可用性要求计算机系统的重要资源都有备份,能够检测到潜在要发生的问题,并且能够转移其上正在运行的任务到备份资源,以保持计算机系统正常运行,减少宕机时间。 可服务性要求计算机系统能够实时在线诊断,精确定位出根本问题所在,做到准确无误的快速修复。现有技术中,通常通过板上管理(Onboard Administrator,OA)来收集运行中的计算机系统的设备错误数据,以利用这些错误数据进行故障的预测。当设备故障次数达到设定阈值时,启用备份设备或进行热替换。这些错误数据严重影响重新启动的计算机系统或已经下线,之后再次上线启用的设备的稳定性。
技术实现思路
本专利技术实施例提出一种提高计算机系统稳定性的方法及计算机系统,以提高计算机系统的稳定性。本专利技术实施例提供了一种提高计算机系统稳定性的方法,包括计算机系统在启动或运行时,收集所述计算机系统的设备产生的错误数据;将所述错误数据存储到非易失性存储器中;所述计算机系统重启时,根据所述错误数据对产生所述错误数据的设备进行状态恢复处理。本专利技术实施例还提供了一种提高计算机系统稳定性的方法,包括计算机系统在运行时,收集所述计算机系统的设备中发生异常的设备的异常信息;将发生异常的设备的所述异常信息存储到非易失性存储器中;所述计算机系统根据所述异常信息对请求重新上线的已下线的所述设备进行状态恢复。本专利技术实施例还提供了一种计算机系统,包括错误收集单元,用于在计算机系统运行或启动时,收集所述计算机系统的设备产生的错误数据;存储单元,用于将所述错误数据存储到非易失性存储器中;恢复处理单元,用于在所述计算机系统重启时,根据所述错误数据对产生所述错误数据的设备进行状态恢复处理。本专利技术实施例还提供了一种计算机系统,包括异常信息收集单元,用于在计算机系统运行时,收集所述计算机系统的设备中发生异常的设备的异常信息;存储单元,用于将发生异常的设备的所述异常信息存储到非易失性存储器中;状态恢复单元,用于根据所述异常信息对请求重新上线的已下线的所述设备进行状态恢复。本专利技术实施例提供的提高计算机系统稳定性的方法及计算机系统,通过在计算机系统运行中将错误数据记录到非易失性存储器中,并在重新启动过程中读取非易失性存储器中的错误数据对计算机系统中对应的设备进行状态恢复处理,解决了计算机系统在重启后设备状态初始化导致的计算机系统之前对一些异常或预测会损坏的设备的禁用、隔离等处理失效,直接导致系统稳定性的降低的问题,提高了计算机系统的稳定性。附图说明图1为本专利技术实施例提供的一种提高计算机系统稳定性的方法的流程图;图2为本专利技术实施例提供的另一种提高计算机系统稳定性的方法的流程图;图3为本专利技术实施例提供的提高计算机系统稳定性的方法中计算机系统重启情况下的设备状态恢复示意图;图4为本专利技术实施例提供的提高计算机系统稳定性的方法中计算机系统的BIOS 策略配置菜单示意图;图5为本专利技术实施例提供的提高计算机系统稳定性的方法中DIMM隔离状态恢复流程图;图6为本专利技术实施例提供的提高计算机系统稳定性的方法中处理器核禁用恢复处理流程图;图7为本专利技术实施例提供的提高计算机系统稳定性的方法中缓存禁用信息的状态恢复处理流程图;图8为本专利技术实施例提供的提高计算机系统稳定性的方法中已下线的发生异常的节点重新上线的状态恢复处理流程图;图9为本专利技术实施例提供的一种计算机系统的结构示意图;图10为本专利技术实施例提供的另一种计算机系统的结构示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。图1为本专利技术实施例提供的一种提高计算机系统稳定性的方法的流程图。本实施例针对重新启动的计算机系统在上一次运行时收集的错误数据对计算机系统中的设备进行状态恢复,以提高计算机系统的稳定性。如图1所示,该方法包括步骤11、计算机系统在启动或运行时,收集所述计算机系统的设备产生的错误数据;错误数据可以是设备的异常信息、双列直插式存储模块(Dual Inline Memory Modules, DIMM)隔离信息、处理器核的禁用信息、缓存禁用信息等。步骤12、将所述存储到非易失性存储器(Non-Volatile Memory, NVM)中。当错误数据为设备的异常信息时,计算机系统在运行时将发生异常的设备的异常信息存储到所述非易失性存储器中;该方法还包括所述计算机系统在运行时根据所述异常信息,对请求重新上线的已下线的所述设备进行状态恢复。当错误数据为DIMM隔离信息时,所述计算机系统在运行时判断所述DIMM是否被替换,若是,则将存储在所述非易失性存储器中的所述DIMM隔离信息进行清除;否则,所述计算机系统重启时将所述DIMM隔离。步骤13、所述计算机系统重启时,根据所述错误数据对产生所述错误数据的设备进行状态恢复处理。例如计算机系统根据DIMM隔离信息对所述计算机系统中对应的DIMM进行隔离。 再如计算机系统根据处理器核的禁用信息禁止所述计算机系统中对应的处理器核参与处理器启动处理线程(Processor Boot Strap Processor, PBSP)的选择,或禁用所述计算机系统中对应的处理器核。又如计算机系统根据缓存禁用信息重新禁用所述计算机系统中对应的缓存。本实施例中,计算机系统通过将运行时收集的错误数据存储在NVM中,并通过在重启时根据错误数据对对应设备进行状态恢复处理,避免了初始化后计算机系统将有问题的或不稳定的设备作为正常设备启用,提高了计算机系统的稳定性。图2为本专利技术实施例提供的另一种提高计算机系统稳定性的方法的流程图。本实施例单独针对运行的计算机系统中异常设备下线后重新上线导致计算机系统不稳定的问题进行处理。如图2所示,该方法包括步骤21、计算机系统在运行时,收集所述计算机系统的设备中发生异常的设备的异常信息;步骤22、将发生异常的设备的所述异常信息存储到非易失性存储器中;步骤23、所述计算机系统根据所述异常信息对请求重新上线的已下线的所述设备进行状态恢复。计算机系统在运行时将发生异常的设备的异常信息存储到所述非易失性存储器中之后,还可包括所述计算机系统判断所述设备是否被替换,若是,则删除所述非易失性存储器中的所述异常信息;否则,执行所述状态恢复。本实施例中,计算机系统通过根据NVM中存储的异常信息对对应的重新请求上线的已下线的设备进行状态恢复,避免了由于设备异常而下线的设备作为正常设备重新上线而导致的系统不稳定,提高了计算机系统的稳定性。例如在计算机系统运行时,如果其中的设备出现故障或被系统禁用,其基本输入输出系统(Basic Input Output System, BIOS)会将这些信息保存在NVM中。当计算机系统重新启动时,对这些信本文档来自技高网...

【技术保护点】
1.一种提高计算机系统稳定性的方法,其特征在于,包括:计算机系统在启动或运行时,收集所述计算机系统的设备产生的错误数据;将所述错误数据存储到非易失性存储器中;所述计算机系统重启时,根据所述错误数据对产生所述错误数据的设备进行状态恢复处理。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:张斌
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1