设备故障信息的收集方法、装置、设备及存储介质制造方法及图纸

技术编号:38822995 阅读:8 留言:0更新日期:2023-09-15 20:02
本申请提供一种设备故障信息的收集方法、装置、设备及存储介质,在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时,通过NMI收集操作系统的环境信息,向BMC发送通信恢复请求和环境信息,根据通信恢复请求恢复与业务服务器之间的通信,若与BMC之间的通信恢复正常,则通过NMI向BMC发送控制指令,最后根据控制指令收集中央处理器CPU的寄存器信息,并将CPU的寄存器信息和环境信息上报至日志服务器,针对非灾难性设备故障,实现了CPU的寄存器信息以及操作系统环境信息的收集,使得收集到的错误信息更完整,进而降低了产生灾难性设备故障的风险。备故障的风险。备故障的风险。

【技术实现步骤摘要】
设备故障信息的收集方法、装置、设备及存储介质


[0001]本申请涉及服务器
,尤其涉及一种设备故障信息的收集方法、装置、设备及存储介质。

技术介绍

[0002]随着IT业务系统的发展,越来越多的硬件资源投入使用。相比于以往的资源不足时代,当前基本都是资源过剩的状态,基础资源性能已不是最大的问题。现在用户更多关心的是硬件的状态。比如硬盘、内存条、风扇、电源是否有故障。因为这些基础部件大多做了冗余设计,坏掉一个可能从操作系统层面无法察觉,但已埋下隐患。
[0003]传统对于服务器的运维场景是需要大量的人员频繁进出机房观察设备状态指示灯进行巡检记录。对于服务器出现不同的故障时,服务器通常可采集的错误信息不同,例如服务器出现非灾难性设备故障时,基本输入输出系统只能将SEL上报给控制管理器,不能获取其他的错误信息用于对故障问题分析。
[0004]综上所述,在出现非灾难性设备故障时,如何完善的收集错误信息进行设备故障问题精准定位分析是本领域亟需解决的难题。

技术实现思路

[0005]本申请提供一种设备故障信息的收集方法、装置、设备及存储介质,用以解决在出现非灾难性设备故障时,如何完善的收集错误信息进行设备故障问题精准定位分析的问题。
[0006]第一方面,本申请提供一种设备故障信息的收集方法,应用于业务服务器,包括:
[0007]在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时,通过所述NMI收集操作系统的环境信息,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;
[0008]向所述BMC发送通信恢复请求和所述环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信;
[0009]若与所述BMC之间的通信恢复正常,则通过所述NMI向所述BMC发送控制指令,所述控制指令用于指示所述BMC收集故障信息,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令。
[0010]结合第一方面,在一些实施例中,所述方法还包括:
[0011]检测所述操作系统的Dmesg命令中是否存在未处理的故障信息;
[0012]若所述Dmesg命令中存在未处理的故障信息,则向所述BMC发送健康状态检测请求,所述健康状态检测请求用于指示所述BMC检测其访问状态;
[0013]接收所述BMC发送的所述访问状态,所述访问状态包括访问正常或访问异常;
[0014]若所述访问状态为访问异常,则确定触发所述NMI处理;
[0015]若所述访问状态为访问正常,则确定不触发所述NMI处理。
[0016]结合第一方面,在一些实施例中,所述向所述BMC发送通信恢复请求之后,所述方法还包括:
[0017]接收所述BMC返回的通信恢复结果,所述通信恢复结果用于指示所述业务服务器与所述BMC之间的通信是否恢复正常。
[0018]结合第一方面,在一些实施例中,所述方法还包括:
[0019]若所述通信恢复结果指示所述业务服务器与所述BMC之间的通信未恢复正常,则向所述BMC发送强制通信指令,所述强制通信指令为重启指令,切换指令,升级指令中任一个。
[0020]第二方面,本申请提供一种设备故障信息的收集方法,应用于管理控制器BMC,包括:
[0021]在访问状态异常时,接收业务服务器发送的通信恢复请求和环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;
[0022]根据所述通信恢复请求恢复与所述业务服务器之间的通信;
[0023]在与所述业务服务器之间的通信恢复正常后,接收所述业务服务器发送的控制指令,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令;
[0024]根据所述控制指令收集中央处理器CPU的寄存器信息,并将所述CPU的寄存器信息和所述环境信息上报至日志服务器。
[0025]结合第二方面,在一些实施例中,所述根据所述控制指令收集中央处理器CPU的寄存器信息,并将所述CPU的寄存器信息和所述环境信息上报至日志服务器,包括:
[0026]根据所述网络状态检测指令,确定网络状态是否正常;
[0027]若所述网络状态正常,则根据所述信息抓取指令以及预设的信息抓取策略,抓取所述CPU的寄存器信息,所述信息抓取策略包括对硬件不能自动恢复的错误抓取所述CPU的寄存器信息;
[0028]根据所述信息存储指令,将所述CPU的寄存器信息以及所述环境信息上传至日志服务器。
[0029]结合第二方面,在一些实施例中,所述方法还包括:
[0030]若所述网络状态不正常,则根据所述信息抓取指令,抓取非易失区域中的所述CPU的寄存器信息;
[0031]根据所述信息存储指令,将所述CPU的寄存器信息和所述环境信息保存在本地硬盘。
[0032]结合第二方面,在一些实施例中,所述根据所述通信恢复请求恢复与所述业务服务器之间的通信之后,所述方法还包括:
[0033]向所述业务服务器发送通信恢复结果,所述通信恢复结果用于指示所述业务服务器与所述BMC之间的通信是否恢复正常。
[0034]结合第二方面,在一些实施例中,所述方法还包括:
[0035]若所述通信恢复结果指示所述业务服务器与所述BMC之间的通信未恢复正常,则接收所述业务服务器发送的强制通信指令,所述强制通信指令为重启指令,切换指令,升级指令中任一个;
[0036]执行所述强制通信指令以恢复与所述业务服务器之间的通信。
[0037]结合第二方面,在一些实施例中,在所述接收业务服务器发送的通信恢复请求之前,所述方法还包括:
[0038]接收所述业务服务器发送的健康状态检测请求;
[0039]根据所述健康状态检测请求检测获取访问状态,所述访问状态包括访问正常或访问异常;
[0040]向所述业务服务器发送所述访问状态。
[0041]第三方面,本申请提供一种设备故障信息的收集装置,包括:
[0042]信息收集模块,用于在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时,通过所述NMI收集操作系统的环境信息,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;
[0043]第一发送模块,用于向所述BMC发送通信恢复请求和所述环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信;
[0044]第二发送模块,用于若与所述BMC之间的通信恢复正常,则通过所述NMI向所述BMC发送控制指令,所述控制指令用于指示所述BMC收集故障信息,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令。
[0045]结合第三方面,在一些实施例中,所述装置还包括:
[0046]检测模块,用于检测所述操作系统的Dmesg命令中是否存在未处理的故障信息;...

【技术保护点】

【技术特征摘要】
1.一种设备故障信息的收集方法,其特征在于,应用于业务服务器,包括:在根据管理控制器BMC发送的访问状态触发了可屏蔽中断NMI处理时,通过所述NMI收集操作系统的环境信息,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;向所述BMC发送通信恢复请求和所述环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信;若与所述BMC之间的通信恢复正常,则通过所述NMI向所述BMC发送控制指令,所述控制指令用于指示所述BMC收集故障信息,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:检测所述操作系统的Dmesg命令中是否存在未处理的故障信息;若所述Dmesg命令中存在未处理的故障信息,则向所述BMC发送健康状态检测请求,所述健康状态检测请求用于指示所述BMC检测其访问状态;接收所述BMC发送的所述访问状态,所述访问状态包括访问正常或访问异常;若所述访问状态为访问异常,则确定触发所述NMI处理;若所述访问状态为访问正常,则确定不触发所述NMI处理。3.根据权利要求1或2所述的方法,其特征在于,所述向所述BMC发送通信恢复请求之后,所述方法还包括:接收所述BMC返回的通信恢复结果,所述通信恢复结果用于指示所述业务服务器与所述BMC之间的通信是否恢复正常。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述通信恢复结果指示所述业务服务器与所述BMC之间的通信未恢复正常,则向所述BMC发送强制通信指令,所述强制通信指令为重启指令,切换指令,升级指令中任一个。5.一种设备故障信息的收集方法,其特征在于,应用于管理控制器BMC,包括:在访问状态异常时,接收业务服务器发送的通信恢复请求和环境信息,所述通信恢复请求用于请求恢复所述业务服务器与所述BMC之间的通信,所述环境信息包括内存信息,硬盘信息,电源信息,风扇信息,温度信息;根据所述通信恢复请求恢复与所述业务服务器之间的通信;在与所述业务服务器之间的通信恢复正常后,接收所述业务服务器发送的控制指令,所述控制指令包括信息抓取指令,信息存储指令,网络状态检测指令;根据所述控制指令收集中央处理器CPU的寄存器信息,并将所述CPU的寄存器信息和所述环境信息上报至日志服务器。6.根据权利要求5所述的方法,其特征在于,所述根据所述控制指令收集中央处理器CPU的寄存器信息,并将所述CPU的寄存器信息和所述环境信息上报至日志服务器,包括:根据所述网络状态检测指令,确定网络状态是否正常;若所述网络状态正常,则根据所述信息抓取指令以及预设的信息抓取策略,抓取所述CPU的寄存器信息,所述信息抓取策略包括对硬件不能自动恢复的错误抓取所述CPU的寄存器信息;根据所述信息存储指令,将所述CPU的寄存器信息以及所述环境信息上传至日志服务
器。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:若所述网络状态不正常,则根据所述信息抓取指令,抓取非易失区域中的所述CPU的寄存器信息;根据所述信息存储指令,将所述CPU的寄存器信息和所述环境信息...

【专利技术属性】
技术研发人员:袁迎春陆颖杰赵海斌田阳松刘炜杰
申请(专利权)人:西安东勤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1