System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种故障诊断方法、装置、设备及机器可读存储介质制造方法及图纸_技高网

一种故障诊断方法、装置、设备及机器可读存储介质制造方法及图纸

技术编号:40033220 阅读:9 留言:0更新日期:2024-01-16 18:34
本公开提供一种故障诊断方法、装置、设备及机器可读存储介质,该方法包括:响应于本地计算机设备BIOS启动阶段宕机的事件,根据上一次BIOS启动阶段宕机关联的开机自检码,确定硬件排查范围;根据硬件排查范围,逐次在硬件排查范围内屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动;记录本次启动屏蔽的一个或多个硬件为故障硬件,屏蔽该一个或多个硬件直至故障被配置为修复状态。通过本公开的技术方案,自动化地根据BIOS启动阶段宕机的事件启动自检,自动逐个逐次屏蔽不同的硬件尝试启动,从而在成功启动后判断出造成宕机的硬件,然后对该硬件进行屏蔽直至其被修复,实现快速故障定位和处理。

【技术实现步骤摘要】

本公开涉及通信,尤其是涉及一种故障诊断方法、装置、设备及机器可读存储介质


技术介绍

1、随着近年来高性能计算的迅速发展和ai技术的不断演进,为了实现更快的运算速度,各行业对服务器的要求也越来越高,服务器的配置也随之越来越多样,不断扩容的内存、基于fpga的各类型加速卡和算力不断攀升而更新换代的gpu,都使服务器的配置更加复杂,因此服务器面对各种外接硬件设备可能出现的故障时,需要更准确和迅速的进行诊断,从而能更快恢复环境,降低此类故障带来的影响。

2、服务器在启动过程中,有可能出现由某个外接硬件设备导致bios在post(poweron self test,上电开机自检)阶段宕机,目前bios针对cpu、内存和pcie的大部分的故障可以正常上报日志,但是仍然存在小部分故障无法定位的情况,一方面是没有有效的办法实时上报外接硬件设备在post阶段宕机的具体位置,另一方面没有日志确定宕机是由哪个外接硬件设备导致的,面对这种情况,运维人员可能需要逐一排查硬件设备来恢复环境。


技术实现思路

1、有鉴于此,本公开提供一种故障诊断方法、装置及电子设备、机器可读存储介质,以改善上述bios启动阶段宕机难以定位的问题。

2、具体地技术方案如下:

3、本公开提供了一种故障诊断方法,应用于计算机设备,所述方法包括:响应于本地计算机设备bios启动阶段宕机的事件,根据上一次bios启动阶段宕机关联的开机自检码,确定硬件排查范围;根据硬件排查范围,逐次在硬件排查范围内屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动;记录本次启动屏蔽的一个或多个硬件为故障硬件,屏蔽该一个或多个硬件直至故障被配置为修复状态。

4、作为一种技术方案,所述响应于本地计算机设备bios启动阶段宕机的事件,根据上一次bios启动阶段宕机关联的开机自检码,确定硬件排查范围,包括:所述响应于本地计算机设备bios启动阶段宕机的事件,尝试最小开机模式启动本地计算机设备;响应于本地计算机设备最小开机模式启动失败的事件,根据上一次bios启动阶段宕机关联的开机自检码,确定硬件排查范围。

5、作为一种技术方案,所述根据硬件排查范围,逐次在硬件排查范围内屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动,包括:根据硬件排查范围,逐次在硬件排查范围内由少到多屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动。

6、作为一种技术方案,所述记录本次启动屏蔽的一个或多个硬件为故障硬件,屏蔽该一个或多个硬件直至故障被配置为修复状态,包括:根据本次启动屏蔽的一个或多个硬件,生成故障信息,所述故障信息包括本次启动屏蔽的一个或多个硬件的硬件信息,并标记该一个或多个硬件为故障硬件;根据故障日志,屏蔽故障信息记录的故障硬件;响应于修复故障硬件的事件,清除关联的记录于故障信息的硬件信息。

7、本公开同时提供了一种故障诊断装置,应用于计算机设备,所述装置包括:第一模块,用于响应于本地计算机设备bios启动阶段宕机的事件,根据上一次bios启动阶段宕机关联的开机自检码,确定硬件排查范围;第二模块,用于根据硬件排查范围,逐次在硬件排查范围内屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动;第三模块,用于记录本次启动屏蔽的一个或多个硬件为故障硬件,屏蔽该一个或多个硬件直至故障被配置为修复状态。

8、作为一种技术方案,所述响应于本地计算机设备bios启动阶段宕机的事件,根据上一次bios启动阶段宕机关联的开机自检码,确定硬件排查范围,包括:所述响应于本地计算机设备bios启动阶段宕机的事件,尝试最小开机模式启动本地计算机设备;响应于本地计算机设备最小开机模式启动失败的事件,根据上一次bios启动阶段宕机关联的开机自检码,确定硬件排查范围。

9、作为一种技术方案,所述根据硬件排查范围,逐次在硬件排查范围内屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动,包括:根据硬件排查范围,逐次在硬件排查范围内由少到多屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动。

10、作为一种技术方案,所述记录本次启动屏蔽的一个或多个硬件为故障硬件,屏蔽该一个或多个硬件直至故障被配置为修复状态,包括:根据本次启动屏蔽的一个或多个硬件,生成故障信息,所述故障信息包括本次启动屏蔽的一个或多个硬件的硬件信息,并标记该一个或多个硬件为故障硬件;根据故障日志,屏蔽故障信息记录的故障硬件;响应于修复故障硬件的事件,清除关联的记录于故障信息的硬件信息。

11、本公开同时提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的故障诊断方法。

12、本公开同时提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的故障诊断方法。

13、本公开提供的上述技术方案至少带来了以下有益效果:

14、自动化地根据bios启动阶段宕机的事件启动自检,并在缩小排查范围后,自动逐个逐次屏蔽不同的硬件尝试启动,从而在成功启动后判断出造成bios启动阶段宕机的硬件,然后对该硬件进行屏蔽直至其被修复,实现对bios启动阶段宕机的快速故障定位和处理。

本文档来自技高网...

【技术保护点】

1.一种故障诊断方法,其特征在于,应用于计算机设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述响应于本地计算机设备BIOS启动阶段宕机的事件,根据上一次BIOS启动阶段宕机关联的开机自检码,确定硬件排查范围,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据硬件排查范围,逐次在硬件排查范围内屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动,包括:

4.根据权利要求1所述的方法,其特征在于,所述记录本次启动屏蔽的一个或多个硬件为故障硬件,屏蔽该一个或多个硬件直至故障被配置为修复状态,包括:

5.一种故障诊断装置,其特征在于,应用于计算机设备,所述装置包括:

6.根据权利要求5所述的装置,其特征在于,所述响应于本地计算机设备BIOS启动阶段宕机的事件,根据上一次BIOS启动阶段宕机关联的开机自检码,确定硬件排查范围,包括:

7.根据权利要求5所述的装置,其特征在于,所述根据硬件排查范围,逐次在硬件排查范围内屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动,包括:

8.根据权利要求5所述的装置,其特征在于,所述记录本次启动屏蔽的一个或多个硬件为故障硬件,屏蔽该一个或多个硬件直至故障被配置为修复状态,包括:

9.一种电子设备,其特征在于,包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令,以实现权利要求1-4任一所述的方法。

10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-4任一所述的方法。

...

【技术特征摘要】

1.一种故障诊断方法,其特征在于,应用于计算机设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述响应于本地计算机设备bios启动阶段宕机的事件,根据上一次bios启动阶段宕机关联的开机自检码,确定硬件排查范围,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据硬件排查范围,逐次在硬件排查范围内屏蔽不同组成的一个或多个硬件并尝试启动,直至本地计算机设备正常启动,包括:

4.根据权利要求1所述的方法,其特征在于,所述记录本次启动屏蔽的一个或多个硬件为故障硬件,屏蔽该一个或多个硬件直至故障被配置为修复状态,包括:

5.一种故障诊断装置,其特征在于,应用于计算机设备,所述装置包括:

6.根据权利要求5所述的装置,其特征在于,所述响应于本地计算机设备bios启动阶段宕机的事件,根据上一次bios启动阶段...

【专利技术属性】
技术研发人员:周英杰
申请(专利权)人:新华三信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1