一种故障定位方法及服务器技术

技术编号:13278310 阅读:78 留言:0更新日期:2016-05-19 03:02
本发明专利技术提供一种故障定位方法及服务器,涉及计算机技术领域,用于在发生CATERR或IERR类故障时,快速准确地定位到故障所在。包括:检测到故障通知消息;故障通知消息指示已出现挂死类故障;获取错误数据,并在错误数据中确定与挂死类故障对应的超时类错误;在超时类错误的地址寄存器中读取错误地址;将错误地址与预存储的PCIe设备地址空间表中进行匹配;若PCIe设备地址空间表中存在与所述错误地址匹配的地址空间,则确定地址空间对应的PCIe设备为导致挂死类故障的故障源。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种故障定位方法及服务器
技术介绍
x86服务器运行过程中会出现CATERR(Catastrophic Error,灾难性错误)或IERR(Internal Error,灾难性错误),导致系统挂死,进而系统业务突然中断。由于CATERR死机故障发生后,很难得到完整的MCA(Machine Check Architecture,硬件故障检查架构)故障记录,另外即使收集到了 MCA故障记录,根据大量的MCA寄存器数据无法快速准确地进行故障定位。目前,对于CATERR或IERR故障定位的方法主要是依靠人工经验判断,或是运行诊断程序定位故障,或替换器件以确定发生故障的器件,都无法快速定位出故障。总之,现有技术对于CATERR或IERR引起的死机现象,故障定位的效率较低,严重影响用户体验。
技术实现思路
本专利技术提供一种故障定位方法及服务器,能够在出现CATERR或IERR时,快速准确地定位到故障所在,提高了故障定位的效率。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,公开了一种故障定位方法,包括:当服务器出现挂死类故障(即上本文档来自技高网...

【技术保护点】
一种故障定位方法,其特征在于,包括:获取错误数据,并在所述错误数据中确定与挂死类故障对应的超时类错误;所述错误数据用于记录服务器发生故障时产生的错误,所述超时类错误为所述服务器发生所述挂死类故障时产生的错误;在所述超时类错误的地址寄存器中读取错误地址;将所述错误地址与预存储的总线和接口标准PCIe设备地址空间表中的PCIe设备的地址空间进行匹配;所述PCIe设备地址空间表中记录有每一个PCIe设备与所述每一个PCIe设备的地址空间的对应关系;若所述PCIe设备地址空间表中存在与所述错误地址匹配的地址空间,则确定所述地址空间对应的PCIe设备为导致所述挂死类故障的故障源。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋刚
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1