【技术实现步骤摘要】
一种离机记录故障硬件位置的方法及装置
本专利技术涉及服务器故障硬件领域,特别是涉及一种离机记录故障硬件位置的方法及装置。
技术介绍
当前服务器系统服务过程中,CPU、内存会经常大量数据的读写访问,导致系统宕机,CPU、内存可用寿命时间减少,严重影响当前业务。当前RAS特性及功能开发是各个服务器提供商展现技术实力和工作效率的重中之重,并且CPU和内存的RAS性能尤其重要。当前,一般服务器厂家都是通过BMC日志来记录各个寄存器,不够准确和直接。技术人员每次都得自己去下载各种日志,有时,维修人员拿不到在线的日志或者日志被运维人员清除掉。我们就无法分析到底是哪根内存或者CPU出故障了,或者是否真是有故障生成。这些数据对部件提供商维保维修服务是至关重要的。而且通过日志来分析内存或者CPU故障非常耽误故障的修复时间,使得效率非常低,耽误业务的进展。
技术实现思路
本专利技术主要解决的技术问题是提供一种离机记录故障硬件位置的方法及装置,能够将故障信息记录到内存SPD区域中,不再依赖服务器以及BMC日志来确认信息,只需拿 ...
【技术保护点】
1.一种离机记录故障硬件位置的方法,其特征在于,包括:第一步,服务器内基本输入输出系统检测硬件发生故障,CPU停止工作;第二步,CPU的寄存器记录故障内存的相关信息以及模块序列号;第三步,寄存器记录故障硬件的相关信息经过地址转换精确到具体故障硬件;第四步,基板管理控制器通过接口命令获取寄存器经过地址转换精确到具体故障硬件的信息;第五步,基本输入输出系统中程序将记录到的信息转化为字节格式,基板管理控制器通过通讯协议将字节格式的信息存储到存储器中。/n
【技术特征摘要】
1.一种离机记录故障硬件位置的方法,其特征在于,包括:第一步,服务器内基本输入输出系统检测硬件发生故障,CPU停止工作;第二步,CPU的寄存器记录故障内存的相关信息以及模块序列号;第三步,寄存器记录故障硬件的相关信息经过地址转换精确到具体故障硬件;第四步,基板管理控制器通过接口命令获取寄存器经过地址转换精确到具体故障硬件的信息;第五步,基本输入输出系统中程序将记录到的信息转化为字节格式,基板管理控制器通过通讯协议将字节格式的信息存储到存储器中。
2.根据权利要求1所述的一种离机记录故障硬件位置的方法,其特征在于:所述寄存器为MSR寄存器和CSR寄存器;所述基板管理控制器为BMC;所述存储器为内存EEPROM;所述字节格式为uint32;所述地址转换为转换DIMM位置;所述接口命令为IPMI命令,所述通讯协议为I2C协议。
3.根据权利要求1所述的一种离机记录故障硬件位置的方法,其特征在于:所述将字节格式的信息存储到存储器中包括所述存储器中设有SPD区域;所述字节格式的信息存储到存储器SPD区域中。
4.根据权利要求1所述的一种离机记录故障硬件位置的方法,其特征在于:所述具体故障硬件包括:CPU、内存、PCIe部件以及主板。
5.根据权利要求3所述的一种离机记录故障硬件位置的方法,其特征在于:所述字节格式的信息包括:故障发生的类型、严重等级、发生时间、故障位置。
6...
【专利技术属性】
技术研发人员:程时务,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。