服务器故障处理方法、系统、设备及可读存储介质技术方案

技术编号:30690815 阅读:23 留言:0更新日期:2021-11-06 09:24
本发明专利技术提供一种服务器故障处理方法、系统、设备及可读存储介质。该方法包括:基于虚拟网卡通道接收基板管理控制器上报的故障告警日志、硬件更换日志以及历史告警日志;根据所述故障告警日志、硬件更换日志以及历史告警日志确定对应的故障处理策略对故障进行处理。通过本发明专利技术,建立服务器的操作系统与基板管理控制器之间的虚拟网卡通道,使得操作系统可基于虚拟网卡通道接收基板管理控制器上报的各类日志文件,从而根据各类日志文件进行故障处理,提高了故障处理效率,保证了服务器的稳定运行。运行。运行。

【技术实现步骤摘要】
服务器故障处理方法、系统、设备及可读存储介质


[0001]本专利技术涉及服务器管理
,尤其涉及一种服务器故障处理方法、系统、设备及可读存储介质。

技术介绍

[0002]现在服务器的硬件速率和配置越来越高,因为硬件故障导致服务器宕机现象也越来越多,在因为硬件故障导致服务器宕机时,需要通过人工或第三方软件从服务器的基板管理控制器(Baseboard Manager Controller,简称BMC)上下载的硬件告警日志进行离线分析。这种方式导致服务器宕机后,不能及时对导致服务器宕机的故障硬件进行定位,从而无法保证服务器的稳定运行。

技术实现思路

[0003]为解决上述技术问题,本专利技术的主要目的在于提供一种服务器故障处理方法、系统、设备及可读存储介质。
[0004]第一方面,本专利技术提供一种服务器故障处理方法,所述服务器故障处理方法应用于服务器的操作系统,所述服务器故障处理方法包括:
[0005]基于虚拟网卡通道接收基板管理控制器上报的故障告警日志、硬件更换日志以及历史告警日志;
[0006]根据所述故障告警日志确定发生故障的目标硬件以及故障类型;
[0007]若故障类型为不可修复错误类型,则根据历史告警日志确定所述目标硬件发生不可修复错误类型故障的第一次数,并基于所述第一次数进行故障处理;
[0008]若故障类型为可修复错误类型,则根据硬件更换日志以及历史告警日志确定所述目标硬件发生可修复错误类型故障的第二次数、所述目标硬件被更换的第三次数以及所述目标硬件的历史访问次数,并基于所述第二次数、第三次数以及历史访问次数进行故障处理。
[0009]可选的,所述基于所述第一次数进行故障处理的步骤包括:
[0010]当所述第一次数与服务器工作时长的比值小于第一阈值,对所述目标硬件进行隔离操作;
[0011]当所述第一次数与服务器工作时长的比值大于或等于第一阈值,输出目标硬件更换提醒。
[0012]可选的,所述基于所述第二次数、第三次数以及历史访问次数进行故障处理的步骤包括:
[0013]当第二次数与服务器工作时长的比值小于第二阈值,则检测第三次数是否大于零;
[0014]若第三次数不大于零,则对所述目标硬件进行隔离操作;
[0015]当第二次数与服务器工作时长的比值大于或等于第二阈值,则对所述目标硬件进
行隔离操作。
[0016]可选的,在所述则检测第三次数是否大于零的步骤之后,还包括:
[0017]若第三次数大于零,则计算第三次数、历史访问次数以及服务器工作时长的乘积;
[0018]若第二次数与所述乘积的比值大于或等于第三阈值,则对所述目标硬件进行隔离操作。
[0019]可选的,在所述计算第三次数、历史访问次数以及服务器工作时长的乘积的步骤之后,还包括:
[0020]若第二次数与所述乘积的比值小于第三阈值,则检测主板更换次数是否大于第四阈值;
[0021]若主板更换次数大于第四阈值,则输出安装异常提醒;
[0022]若主板更换次数小于或等于第四阈值,则输出主板更换提醒。
[0023]可选的,当所述目标硬件为UPI总线,所述对所述目标硬件进行隔离操作的步骤包括:
[0024]对UPI总线做降速处理,若降速处理后UPI总线仍存在故障,则隔离通过UPI总线连接的两个CPU中的任一个,且不访问UPI总线。
[0025]可选的,所述虚拟网卡通道为USB虚拟网卡通道。
[0026]第二方面,本专利技术还提供一种服务器故障处理系统,所述服务器故障处理系统包括:
[0027]接收模块,用于基于虚拟网卡通道接收基板管理控制器上报的故障告警日志、硬件更换日志以及历史告警日志;
[0028]第一确定模块,用于根据所述故障告警日志确定发生故障的目标硬件以及故障类型;
[0029]第二确定模块,用于若故障类型为不可修复错误类型,则根据历史告警日志确定所述目标硬件发生不可修复错误类型故障的第一次数;
[0030]第三确定模块,用于若故障类型为可修复错误类型,则根据硬件更换日志以及历史告警日志确定所述目标硬件发生可修复错误类型故障的第二次数、所述目标硬件被更换的第三次数以及所述目标硬件的历史访问次数;
[0031]处理模块,用于基于所述第一次数进行故障处理,还用于基于所述第二次数、第三次数以及历史访问次数进行故障处理。
[0032]第三方面,本专利技术还提供一种服务器故障处理设备,所述服务器故障处理设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的服务器故障处理程序,其中所述服务器故障处理程序被所述处理器执行时,实现如上所述的服务器故障处理方法的步骤。
[0033]第四方面,本专利技术还提供一种可读存储介质,所述可读存储介质上存储有服务器故障处理程序,其中所述服务器故障处理程序被处理器执行时,实现如上所述的服务器故障处理方法的步骤。
[0034]本专利技术中,基于虚拟网卡通道接收基板管理控制器上报的故障告警日志、硬件更换日志以及历史告警日志;根据所述故障告警日志确定发生故障的目标硬件以及故障类型;若故障类型为不可修复错误类型,则根据历史告警日志确定所述目标硬件发生不可修
复错误类型故障的第一次数;基于所述第一次数进行故障处理;若故障类型为可修复错误类型,则根据硬件更换日志以及历史告警日志确定所述目标硬件发生可修复错误类型故障的第二次数、所述目标硬件被更换的第三次数以及所述目标硬件的历史访问次数;基于所述第二次数、第三次数以及历史访问次数进行故障处理。通过本专利技术,建立服务器的操作系统与基板管理控制器之间的虚拟网卡通道,使得操作系统可基于虚拟网卡通道接收基板管理控制器上报的各类日志文件,从而根据各类日志文件进行故障处理,提高了故障处理效率,保证了服务器的稳定运行。
附图说明
[0035]图1为本专利技术实施例方案中涉及的服务器故障处理设备的硬件结构示意图;
[0036]图2为本专利技术服务器故障处理方法一实施例的流程示意图;
[0037]图3为本专利技术服务器故障处理系统一实施例的架构示意图。
[0038]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0039]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0040]第一方面,本专利技术实施例提供一种服务器故障处理设备。
[0041]参照图1,图1为本专利技术实施例方案中涉及的服务器故障处理设备的硬件结构示意图。本专利技术实施例中,服务器故障处理设备可以包括处理器1001(例如中央处理器Central Processing Unit,CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务器故障处理方法,其特征在于,所述服务器故障处理方法应用于服务器的操作系统,所述服务器故障处理方法包括:基于虚拟网卡通道接收基板管理控制器上报的故障告警日志、硬件更换日志以及历史告警日志;根据所述故障告警日志确定发生故障的目标硬件以及故障类型;若故障类型为不可修复错误类型,则根据历史告警日志确定所述目标硬件发生不可修复错误类型故障的第一次数,并基于所述第一次数进行故障处理;若故障类型为可修复错误类型,则根据硬件更换日志以及历史告警日志确定所述目标硬件发生可修复错误类型故障的第二次数、所述目标硬件被更换的第三次数以及所述目标硬件的历史访问次数,并基于所述第二次数、第三次数以及历史访问次数进行故障处理。2.如权利要求1所述的服务器故障处理方法,其特征在于,所述基于所述第一次数进行故障处理的步骤包括:当所述第一次数与服务器工作时长的比值小于第一阈值,对所述目标硬件进行隔离操作;当所述第一次数与服务器工作时长的比值大于或等于第一阈值,输出目标硬件更换提醒。3.如权利要求1所述的服务器故障处理方法,其特征在于,所述基于所述第二次数、第三次数以及历史访问次数进行故障处理的步骤包括:当第二次数与服务器工作时长的比值小于第二阈值,则检测第三次数是否大于零;若第三次数不大于零,则对所述目标硬件进行隔离操作;当第二次数与服务器工作时长的比值大于或等于第二阈值,则对所述目标硬件进行隔离操作。4.如权利要求3所述的服务器故障处理方法,其特征在于,在所述则检测第三次数是否大于零的步骤之后,还包括:若第三次数大于零,则计算第三次数、历史访问次数以及服务器工作时长的乘积;若第二次数与所述乘积的比值大于或等于第三阈值,则对所述目标硬件进行隔离操作。5.如权利要求4所述的服务器故障处理方法,其特征在于,在所述计算第三次数、历史访问次数以及服务器工作时长的乘积的步骤之后,还包括:若第二次数与所述乘积的比值小于第三阈值,...

【专利技术属性】
技术研发人员:邓艳山袁振涛
申请(专利权)人:烽火通信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1