一种服务器故障的离线诊断方法技术

技术编号:8655877 阅读:169 留言:0更新日期:2013-05-01 23:32
本发明专利技术提供一种服务器故障的离线诊断方法,属于计算机技术,其主要步骤包括①故障定位;②故障信息存储;③故障离线指示;④电源管理方案。该一种服务器故障的离线诊断方法和现有技术相比,在系统离线状态下仍可指示故障点,帮助系统维护人员迅速定位,维护更换备件,从而快速恢复系统正常运作,提高系统维护人员工作效率,大幅缩短系统宕机时间,降低维护成本,提高系统可靠性。

【技术实现步骤摘要】

本专利技术涉及计算机
,具体的说是。
技术介绍
随着用户需求的的不断提升和科技进步的不断发展,服务器的性能越来越卓越,同时也使得服务器系统越来越复杂。卓越的性能给用户带来良好体验的同时,也引入了一个棘手的问题一系统维护越来越困难。当系统出现故障时,面对如此庞大的电子系统,数量众多的系统板卡,成千上万的电子元器件,系统维护工程师往往要花费大量的时间才能定位到故障点,很多情况下,还需要借助于实验室分析才能定位,这浪费了大量的时间和人力消耗,同时长时间宕机也给客户带来了很大损失。芯片厂商和系统设计者都看到了这一问题,他们通过各种方法来提高自诊断能力,减少故障定位时间,提高系统维护效率。一般情况下芯片会根据自身的工作状态输出一些状态指示信号,例如指示错误的Error信号,指示温度异常的Hot信号,指示电源质量的PWRG00D等,系统设计者通过一定的手段收集这些状态信号并作出诊断,指示系统故障,给系统维护者提供帮助。常规的故障诊断方法可称之为在线故障诊断,其一般工作原理是 1、IC根据自身工作状态驱动工作状态指示信号,通过声光器件(LED、数码管、蜂鸣器等)指示其工作状态(如PWRG00D、HOT、Error等); 2、系统管理单元(SMC)收集系统工作状态,包括链路状态,系统电源状态,系统温度状态,湿度状态,内存和CPU异常等,通过系统日志或者UI面板指示系统工作状态; 采用这种故障诊断方法,诊断比较全面,实现也比较简单,但是存在一个致命问题可维护性较差,具体表现在 1、在线诊断方式,只能在芯片工作时才能指示异常,此时往往需要系统完全开机;然而,系统出了严重故障时可能已经宕机,在未排除系统故障的情况下,尝试对系统再次开机可能对设备造成灾难性损坏; 2、在线诊断和离线维护之间存在矛盾在对硬件故障维护更换时,系统必须处于关机状态,然后在线诊断时系统又必须处于开机状态,这就要求维护人员必须在开机状态下仔细记录故障现象,然后再关机维护。一方面当系统故障点较多时,记录比较麻烦,容易造成遗漏;另一方面,当板卡需要返厂做专业维修时,故障记录也容易在传递过程中造成遗失或者混乱, 3、系统日志导出往往需要专业工具,另一方面,从庞杂的系统日志里提取所包含的故障信息需要较高的专业知识,这会增加维护人员的工作难度,降低维护效率。为了解决在线故障诊断所带来的不便,提高维护效率,本专利技术提出一种全新的故障诊断方式一离线诊断
技术实现思路
本专利技术的技术任务是解决现有技术的不足,提供。本专利技术的技术方案是按以下方式实现的,该,其具体实现步骤为 a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通; b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息; C、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断; d、故障诊断中心发送故障信息到离线指示模块; e、离线指示模块存储故障信息,并在用户触发后,指示故障模块; f、维护人员根据故障指示,完成系统维护更换。所述步骤a中板卡上的离线指示模块是指低功耗微处理器MCU,侦测单元是指硬件监控芯片或模数转换器ADC ;所述管理卡上的故障诊断中心是指服务监控芯片SMC。所述步骤b中侦测单元侦测的状态信息包括所在板卡的电压侦测、温度侦测、湿度侦测和风扇转速侦测;BI0S收集系统底层的错误信息包括内存错误,CPU故障。所述故障诊断中心还负责完成电池电量侦测,当电量过低时,会发出指示信号。所述步骤e的具体步骤为离线指示模块接收来自故障诊断中心的故障数据,并将其存储在自身Flash或者EEPROM中;在收到离线指示触发信号后,点亮故障模块对应的LED。所述电源管理模块采用下述两种方法中的一种进行供电 1)系统在线状态时,采用系统电源给离线指示模块供电,此时MCU处于一直工作状态,以便及时处理来自故障诊断中心的数据,系统离线时,切换到电池供电; 2)当采用电池供电时,MCU进入睡眠状态,只有收到离线指示触发信号才恢复正常工作,读取自身存储的故障信息,同时点亮指示灯,之后立即进入睡眠状态。本专利技术与现有技术相比所产生的有益效果是 本专利技术的可以全面克服在线诊断方式的弊端,使得维护人员不再受限于系统工作状态,可以随时随地查看故障信息,完成高效维护;由于错误数据存储在EEPROM或者Flash存储器中,除非故障诊断中心去改写这些数据,否则它会永远保留;离线诊断,指示方便直观,便于快速定位,不再依赖于系统电源和系统运行状态,因此维护人员完全可以将板卡拆卸下来再去定位,而且故障直接定位到模块或者器件,维护人员只需按照指示去更换相应的模块即可,高效直观,有效提高产品的市场竞争力附图说明附图1是本专利技术的服务器构架部分结构示意框图。具体实施例方式下面结合附图对本专利技术的作以下详细说明。如附图1所示,现提供,其具体实现步骤为 a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通; 下面对上述各个模块作详细简介。侦测单元侦测单元用来侦测该模块或者位置的状态,常见的侦测包括电压侦测、温度侦测、湿度侦测、风扇转速侦测;侦测单元在系统中一般有模数转换器ADC或者硬件监控芯片 Hardware Monitor 完成。BIOS =BIOS用来收集系统底层的一些错误信息,比如内存错误,CPU故障等。故障诊断中心故障诊断中心在系统中一般由服务监控芯片SMC承担;故障诊断中心主要完成四个方面的工作①收集来自侦测单元的数据;②收集来自BIOS的系统状态信息(比如内存和CPU错误)根据收集到的信息对各模块状态作出诊断;④发送模块错误信息到离线指示模块;另外故障诊断中心还负责完成电池电量侦测,当电量过低时,会发出指示信号,提醒用户更换电池。离线指示模块离线指示模块接收来自故障诊断中心的故障数据,并将其存储在自身Flash或者EEPROM中;在收到离线指示触发信号后,点亮故障模块(如内存、CPU、电源、风扇等)对应的LED,提示维护人员此模块有故障;离线指示模块在系统中通常由低功耗微处理器(MCU)完成,如MSP430系列微处理器,其待机电流非常低,因此可以采用电池供电方案;由于故障数据存储在非易失存储器中,因此即便系统关机,电池耗尽,该故障信息也会被保留下来,维护人员可以随时查看。电源管理模块为了节省电池功耗,电源管理模块采用两种策略来延长电池寿命①离线指示模块电源切换一系统在线状态时,采用系统电源给离线指示模块供电,此时MCU处于一直工作状态,以便及时处理来自故障诊断中心的数据,系统离线时,切换到电池供电;@MCU低功耗切换机制当采用电池供电时,MCU进入睡眠状态,只有收到离线指示触发信号才恢复正常工作,读取自身存储的故障信息,同时点亮指示LED几秒钟,之后立即进入睡眠状态;通过这两种策略,可以最大程度延迟电池寿命。b、侦测单元侦测各自的状态信息,本文档来自技高网
...

【技术保护点】
一种服务器故障的离线诊断方法,其特征在于其具体实现步骤为:a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通;b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息;c、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断;d、故障诊断中心发送故障信息到离线指示模块;e、离线指示模块存储故障信息,并在用户触发后,指示故障模块;f、维护人员根据故障指示,完成系统维护更换。

【技术特征摘要】
1.一种服务器故障的离线诊断方法,其特征在于其具体实现步骤为: a、在服务器内设置管理卡和若干诊断板卡,在诊断板卡上设置有顺序连接的电源管理模块、离线指示模块和侦测单元,在管理卡上设置有相互连通的BIOS和故障诊断中心,所述故障诊断中心与上述电源管理模块、离线指示模块和侦测模块均连通; b、侦测单元侦测各自的状态信息,BIOS侦测系统底层错误信息; C、故障诊断中心收集上述步骤b中的状态信息和错误信息,并对系统各模块状态做出诊断; d、故障诊断中心发送故障信息到离线指示模块; e、离线指示模块存储故障信息,并在用户触发后,指示故障模块; f、维护人员根据故障指示,完成系统维护更换。2.根据权利要求1所述的一种服务器故障的离线诊断方法,其特征在于:所述步骤a中板卡上的离线指示模块是指低功耗微处理器MCU,侦测单元是指硬件监控芯片或模数转换器ADC ;所述管理卡上的故障诊断中心是指服务监控芯片SMC。3.根据权利要求1所述的一种服务器故障的离线诊断方法,其特征在于:所述步骤b中侦测单元侦测的...

【专利技术属性】
技术研发人员:薛广营李博乐
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1