一种带外自检故障隔离的方法技术

技术编号:28295211 阅读:42 留言:0更新日期:2021-04-30 16:18
本发明专利技术公开了一种带外自检故障隔离的方法,包括系统启动时,对系统中所有的设备通过监控通道进行监控;获取启动时系统各设备的启动状态,对不同异常状态进行状态分级,根据状态分级,采用对应状态分级的隔离方法,完成对状态异常的设备的隔离,系统进入运行;系统进入运行后,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若有,则先将新状态异常设备进行匹配,若匹配到相同的设备信息,则判断此设备为不稳定设备;若未匹配到相同的设备信息,则判断此设备为新故障设备,进行故障检测与隔离。通过本发明专利技术,可以实现提前主动的检测系统故障,主动的识别可能导致系统挂死、复位的高危故障类型,确保系统软件运行正常。

【技术实现步骤摘要】
一种带外自检故障隔离的方法
本专利技术涉及服务器系统领域,具体是一种带外自检故障隔离的方法。
技术介绍
目前服务器系统中,系统启动时,主要依靠BIOS对CPU、内存、PCIe外设做初始化和配置,对于故障率较高的内存,某些厂商的BIOS也会做内存的扫描、自检,以识别内存的可能潜在故障。但并没有对外设做故障检测。很有可能由于这些外设故障导致系统无法启动或者运行中异常挂死。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种带外自检故障隔离的方法,包括如下步骤:步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度,进行故障检测与隔离,同时检测是本文档来自技高网...

【技术保护点】
1.一种带外自检故障隔离的方法,其特征在于,包括如下步骤:/n步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;/n步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;/n步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度

【技术特征摘要】
1.一种带外自检故障隔离的方法,其特征在于,包括如下步骤:
步骤一,系统启动时,通过带外管理子系统BMC,对系统中所有的设备通过监控通道进行监控;
步骤二,获取启动时系统各设备的启动状态,若检测到设备的启动状态异常,记录相关的异常状态信息及对应设备信息关联存储到错误状态寄存器,对异常状态进行判断,对不同异常状态进行三级状态分级,根据状态分级,采用对应状态分级的隔离方法对设备进行隔离,系统进入运行;
步骤三,系统进入运行后,对处于隔离状态的设备,根据该设备的设备启动分离度,进
行故障检测与隔离,同时检测是否有新状态异常设备,若没有,则完成故障隔离;若有,则进
入步骤四;
步骤四,先将新状态异常设备信息与错误状态寄存器中存储的设备信息进行匹配,若
匹配到相同的设备信息,则判断此设备为不稳定设备,通过该类型设备的使用故障率、该
类型设备的历史故障率以及该设备的设备启动分离度,对该设备进行故障隔离;若未匹
配到相同的设备信息,则判断此设备为新故障设备,先将异常状态信息及对应设备信息存
储到错误状态寄存器,再根据该设备的设备启动分离度,进行故障检测与隔离,直到所有
状态异常设备均完成故障检测与隔离。


2.根据权利要求1所述的一种带外自检故障隔离的方法,其特征在于,步骤二中所述的对异常状态进行判断,对不同异常状态进行三级状态分级,包括:所述的三级状态分级包括一级异常状态、二级异常状态、三级异常状态;所述的一级异常状态为设备一次启动失败,二次正常启动的状态;二级异常状态为设备启动失败次数大于一次,小于失败启动阈值;三级异常状态为设备启动失败次数大于或等于失败启动阈值。


3.根据权利要求2所述的一种带外自检故障隔离的方法,其特征在于,步骤二中所述的根据状态分级,采用对应状态分级的隔离方法,包括:对一级异常状态和二级异常状态对应的设备进行异常...

【专利技术属性】
技术研发人员:赵彦钧
申请(专利权)人:四川华鲲振宇智能科技有限责任公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1