【技术实现步骤摘要】
一种内存故障定位方法及装置
[0001]本说明书涉及通信
,尤其涉及一种内存故障定位方法及装置。
技术介绍
[0002]随着国内外信息技术的高速发展,服务器已广泛应用于各大行业,人们对于服务器的可靠运行也日趋关注。在服务器所出现的故障中,硬盘和内存占前两位,其中内存故障会直接影响系统运行,导致客户业务中断,因此快速定位内存故障成为了重要研究方向。内存故障主要分为可纠正错误和不可纠正错误,可纠正错误不影响系统运行,不可纠正错误会导致系统挂死,使系统完全停止工作。因此,不可纠正错误更需要被关注。
[0003]对于系统挂死来说,包含两种情况,一种是由系统软件造成的MCERR(机械检查错误,Machine Check Error),另一种是由系统硬件造成的IERR(内部错误,Internal Error)。在MCERR的情况下,服务器的BIOS(基本输入输出系统,Basic Input Output System)仍可以工作,并进行错误检测和上报。但是在IERR的情况下,BIOS也会停止运行,无法实现错误定位和上报。因 ...
【技术保护点】
【技术特征摘要】
1.一种内存故障定位方法,其特征在于,应用于基板管理控制器BMC,包括:当根据主板上的逻辑芯片中的寄存器确定出现故障时,从所述主板的处理器中获取内部寄存器的故障信息;根据所述故障信息确定故障内存的系统地址;根据所存储的系统地址和物理地址的映射关系,对所述系统地址进行地址转换,获取所述故障内存的物理地址;在系统事件日志中记录所述物理地址。2.根据权利要求1所述的方法,其特征在于,在所述根据主板上的逻辑芯片中的寄存器确定出现故障之前,还包括:接收并存储内存的系统地址和物理地址的映射关系。3.根据权利要求1所述的方法,其特征在于,所述根据所述故障信息确定故障内存的系统地址,还包括:根据第一寄存器中所获取的第一故障信息确定故障类型;若所述故障类型为本处理器的故障,则根据第二寄存器中所获取的第二故障信息确定故障模块;从所述故障模块所对应的第三寄存器中获取所述故障模块所对应的系统地址。4.根据权利要求3所述的方法,其特征在于,所述根据第一寄存器中所获取的第一故障信息确定所述内存故障的故障类型之后,还包括:若根据所述故障类型确定不是本处理器的故障,则停止内存故障的定位。5.根据权利要求3所述的方法,其特征在于,所述故障模块包括集成管理控制器IMC、集成输入输出模块IIO、中间缓存MLC和数据缓存DCU;所述从所述故障模块所对应的第三寄存器中获取所述故障模块所对应的系统地址,包括:若所述故障模块为IIO且无法解析出系统地址,则从所述IMC所...
【专利技术属性】
技术研发人员:赵俊,
申请(专利权)人:新华三云计算技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。