一种服务器故障监控的方法技术

技术编号:15840308 阅读:84 留言:0更新日期:2017-07-18 16:45
本发明专利技术公开一种服务器故障监控的方法,涉及服务器管理领域;将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本发明专利技术方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。

Method for monitoring server fault

The invention discloses a method for monitoring server failure, involving server management field; the specific pin system components are connected to the system management module of GPIO, specific status of the pin when the system components change, change information management module acquisition system by GPIO, to determine whether the system is abnormal, if the system is abnormal. Fault data collection system, and log; use the method of the invention, only the system changed little, but the management module of the system can be instantly perceived fault of system failure, and to collect real-time fault state, can also record the error transmission order, provide effective help for the fault location, improve server the reliability of the.

【技术实现步骤摘要】
一种服务器故障监控的方法
本专利技术公开一种服务器故障监控的方法,涉及服务器管理领域。
技术介绍
服务器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。而今在竞争日益激烈的服务器市场中,服务器的可靠性成为越来越重要的指标。服务器出现故障后的停机时间是服务器可靠性的重要组成部分,一般服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息。为了解决上述问题,本专利技术提供一种服务器故障监控的方法,使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时也可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。PCH,PlatformControllerHub是intel公司的集成南桥。GPIOGeneralPurposeI/O通用输入/输出,或总线扩展器,利用工业标准I2C、SMBus或SPI接口简化了I/O口的扩展。当微控制器或芯片组没有足够的I/O端口,或当系统需要采用远端串行通信或控制时,GPIO产品能够提供额外的控制和监视功能。
技术实现思路
本专利技术针对目前服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息的问题,提供一种服务器故障监控的方法,对故障定位提供有效的帮助,提高服务器的可靠性。一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。所述系统元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上,当系统CPU的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。将CPU的caterr管脚连接到管理模块的GPIO上,当系统CPU的caterr管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生致命性错误,若为系统发生致命性错误,则收集系统故障状态数据,并记录日志。还将CPU的ERR管脚连接到管理模块的GPIO上,当系统CPU的ERR管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生PCIE错误,若为系统发生PCIE错误,则收集系统故障状态数据,并记录日志。所述系统元器件还包括PCH,并将PCH的warmreset管脚连接到管理模块的GPIO上,当PCH的warmreset管脚状态发生变化时,管理模块通过与warmreset管脚相连的GPIO获取系统发生重启信息,判断系统是否为异常重启,若是,则收集系统故障状态数据,并记录日志。一种服务器故障监控系统,利用所述的方法对服务器系统进行改造而成,将服务器系统元器件的特定管脚连接到系统管理模块的GPIO上;当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。所述的元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上。将系统CPU的caterr管脚和/或ERR管脚连接到管理模块的GPIO上。所述的元器件还包括PCH,将PCH的warmreset管脚连接到管理模块的GPIO上。本专利技术与现有技术相比具有的有益效果是:本专利技术提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本专利技术方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。附图说明图1本专利技术系统管脚连接示意图;图2本专利技术方法流程示意图。图1中W表示warmreset管脚,E表示ERR管脚,C表示caterr管脚。具体实施方式本专利技术提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。同时提供一种服务器故障监控的系统,利用上述的方法对服务器系统进行改造而成。为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本专利技术进一步详细说明。利用本专利技术方法,对服务器系统进行改造,将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO可以获取系统相应的变化信息,然后判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;其中参考图1,将各个CPU的caterr管脚连接到管理模块的GPIO上,当系统caterr管脚状态发生变化时,即系统发生致命性错误时,管理模块通过GPIO感知,则收集CPU等模块故障状态,记录致命错误日志;同时可将各个CPU的ERR管脚连接到管理模块的GPIO上,当系统ERR管脚状态发生变化时,即系统发生PCIE错误时,管理模块通过GPIO感知,收集CPU等模块故障状态并记录PCIE错误日志;除将CPU的特定管脚连接到管理模块的GPIO上外,还可将PCH的warmreset管脚连接到管理模块的GPIO上,当系统发生重启时,管理模块通过与warmreset管脚相连的GPIO感知,并判断是否为异常重启,若是,则收集系统CPU等模块故障状态并记录异常重启日志。在上述实施例中,在主流错误场景下,即系统异常重启,发生致命错误,发生PCIE错误场景下,系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。除此之外,可根据实际情况选择元器件的特定管脚连接到管理模块的GPIO上,对系统异常情况进行监控,使系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。本文档来自技高网...
一种服务器故障监控的方法

【技术保护点】
一种服务器故障监控的方法,其特征在于将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。

【技术特征摘要】
1.一种服务器故障监控的方法,其特征在于将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。2.根据权利要求1所述的方法,其特征在于所述系统元器件为CPU,将CPU的特定管脚连接到系统管理模块的GPIO上,当系统CPU的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。3.根据权利要求2所述的方法,其特征在于将CPU的caterr管脚连接到管理模块的GPIO上,当系统CPU的caterr管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生致命性错误,若为系统发生致命性错误,则收集系统故障状态数据,并记录日志。4.根据权利要求2或3所述的方法,其特征在于还将CPU的ERR管脚连接到管理模块的GPIO上,当系统CPU的ERR管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否发生PCIE错误,若为系统发生PCIE错误,则收集系...

【专利技术属性】
技术研发人员:王建红
申请(专利权)人:广东浪潮大数据研究有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1