一种故障处理方法、装置及电子设备和存储介质制造方法及图纸

技术编号:31847659 阅读:9 留言:0更新日期:2022-01-12 13:29
本申请公开了一种故障处理方法、装置及一种电子设备和计算机可读存储介质,该方法包括:服务器开机后,获取所述服务器中部件的资源信息;在所述服务器异常宕机后,采集所述服务器中的部件对应的故障寄存器信息;利用故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息进行故障部件的定位。本申请提供的故障处理方法,在服务器异常宕机后,采集服务器中各部件对应的故障寄存器信息,利用预设的故障诊断规则对各部件的资源信息和异常宕机后采集的故障寄存器信息进行分析,以定位故障部件,缩短了停机维修时间,增强了服务器可靠性、可用性、可维护性。可维护性。可维护性。

【技术实现步骤摘要】
一种故障处理方法、装置及电子设备和存储介质


[0001]本申请涉及计算机
,更具体地说,涉及一种故障处理方法、装置及一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]服务器作为运算及数据存储服务的核心在各行业广泛应用,当前在各行业业务需求的压力下,服务器设计的复杂度越来越高,并且在线运行的服务器数量呈指数级不断攀升。服务器在业务计算负载长时间不间断的运行过程中,由于小概率的硬件或软件异常导致服务器宕机的情况仍不可避免,在庞大的基数上若以每月1

的宕机率进行统计,也会有较大数量的异常服务器宕机难以处理,另外非计划停机维修的时间越长,对终端客户产生的损失越严重。
[0003]因此,如何在服务器异常宕机后快速准确的实现故障部件的精准定位,缩短停机维修时间是本领域技术人员需要解决的技术问题。

技术实现思路

[0004]本申请的目的在于提供一种故障处理方法、装置及一种电子设备和一种计算机可读存储介质,在服务器异常宕机后实现了故障部件的精准定位,从而缩短了停机维修时间。
[0005]为实现上述目的,本申请提供了一种故障处理方法,包括:服务器开机后,获取所述服务器中部件的资源信息;在所述服务器异常宕机后,采集所述服务器中的部件对应的故障寄存器信息;利用故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息进行故障部件的定位。
[0006]其中,利用故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息进行故障部件的定位,包括:利用多条故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果;若仅存在一条定位结果,则输出所述定位结果;若存在多条定位结果,则判断多条定位结果是否一致;若是,则输出任一条定位结果;若否,则基于每条故障诊断规则的权重生成每条所述定位结果的加权值,输出加权值最大的定位结果。
[0007]其中,所述利用多条故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果,包括:利用每条故障诊断规则下各部件或各故障寄存器对应的故障诊断子规则基于所述部件的资源信息和对应的故障寄存器信息生成故障部件的定位结果;基于每条故障诊断子规则下各故障寄存器信息的权重和各部件相对于故障寄存器的权重生成各部件的故障加权值;
将故障加权值最大的部件确定为故障部件。
[0008]其中,所述故障诊断规则包括CPU故障诊断规则,利用所述CPU故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果,包括:根据CPU中MC Bank寄存器的状态信息和地址信息生成定位结果;其中,所述定位结果包括CPU故障源、所述CPU故障源中的故障模块和故障类型。
[0009]其中,所述故障诊断规则包括历史故障记录诊断规则,利用所述历史故障记录诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果,包括:判断历史故障记录中是否存在与目标故障寄存器信息相关的故障事件;若是,则基于所述目标故障寄存器信息生成定位结果;其中,所述定位结果包括所述目标故障寄存器信息对应的部件。
[0010]其中,所述故障诊断规则包括故障时间诊断规则,利用所述故障时间诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果,包括:基于异常宕机之前预设时间段内产生的故障寄存器信息生成定位结果;其中,所述定位结果包括所述预设时间段内最晚产生的故障寄存器信息对应的部件。
[0011]其中,还包括:若每条所述故障诊断规则均不存在对应的定位结果,则输出故障日志;其中,所述故障日志包括所述部件的资源信息和对应的故障寄存器信息;基于所述故障日志中的错误代码类型创建新的故障诊断规则。
[0012]其中,还包括:获取每个故障部件的每种故障类型的故障寄存器信息,以生成诊断故障树;其中,所述诊断故障树的第一层节点以故障部件进行分类,第二层节点以故障类型进行分类;基于所述诊断故障树对所述服务器异常宕机后采集到的各部件对应的故障寄存器信息进行匹配,得到故障定位结果。
[0013]其中,所述采集所述服务器中的部件对应的故障寄存器信息,包括:所述服务器中的BMC从所述部件中抓取故障寄存器信息,或,接收操作系统下的辅助应用程序和/或BIOS发送的所述部件对应的故障寄存器信息。
[0014]其中,还包括:在所述服务器的运行过程中,采集所述服务器中的部件对应的故障寄存器信息;利用监控诊断规则基于所述部件的资源信息和对应的故障寄存器信息得到所述服务器的故障预警结果。
[0015]其中,所述利用监控诊断规则基于所述部件的资源信息和对应的故障寄存器信息得到所述服务器的故障预警结果,包括若目标内存的故障寄存器信息检测到正在发生可纠正错误风暴或相邻读取单元内发生过可纠正错误,则输出所述目标内存的故障预警;和/或,若目标CPU的一级缓存单元或二级缓存单元或指令预存单元的可纠正错误数量大于第一阈值,则输出所述目标CPU的故障预警;和/或,若目标硬盘的坏道数量大于第二阈值,或坏块计数大于第三阈值,或读写错误率大于第四阈值,则输出所述目标硬盘的故障预警;
和/或,若目标PCIe外插卡的可纠正错误数量大于第五阈值,则输出所述目标PCIe外插卡的故障预警;和/或,若目标部件的剩余寿命低于第六阈值,则输出所述目标部件的更换提示。
[0016]其中,还包括:基于所述服务器中部件失效前的故障寄存器信息生成各部件对应的失效模型;将所述服务器的运行过程中采集到的各部件对应的故障寄存器信息与各部件对应的失效模型进行匹配,得到失效故障预警结果。
[0017]为实现上述目的,本申请提供了一种故障处理装置,包括:获取模块,用于服务器开机后,获取所述服务器中部件的资源信息;第一采集模块,用于在所述服务器异常宕机后,采集所述服务器中的部件对应的故障寄存器信息;定位模块,用于利用故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息进行故障部件的定位。
[0018]为实现上述目的,本申请提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述故障处理方法的步骤。
[0019]为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述故障处理方法的步骤。
[0020]通过以上方案可知,本申请提供的一种故障处理方法,包括:服务器开机后,获取所述服务器中部件的资源信息;在所述服务器异常宕机后,采集所述服务器中的部件对应的故障寄存器信息;利用故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息进行故障部件的定位。
[0021]本申请提供的故障处理方法,在服务器异常宕机后,采集服务器中各部件对应的故障寄存器信息,利用预设的故障诊断规则对各部件的资源信息和异常宕机后采集的故障寄存器信息进行分析,以精确定位故障部件,缩短了停机维修时间,避免换件错误导致二次宕机维修,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障处理方法,其特征在于,包括:服务器开机后,获取所述服务器中部件的资源信息;在所述服务器异常宕机后,采集所述服务器中的部件对应的故障寄存器信息;利用故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息进行故障部件的定位;其中,利用故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息进行故障部件的定位,包括:利用多条故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果;若仅存在一条定位结果,则输出所述定位结果;若存在多条定位结果,则判断多条定位结果是否一致;若是,则输出任一条定位结果;若否,则基于每条故障诊断规则的权重生成每条所述定位结果的加权值,输出加权值最大的定位结果。2.根据权利要求1所述故障处理方法,其特征在于,所述利用多条故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果,包括:利用每条故障诊断规则下各部件或各故障寄存器对应的故障诊断子规则基于所述部件的资源信息和对应的故障寄存器信息生成故障部件的定位结果;基于每条故障诊断子规则下各故障寄存器信息的权重和各部件相对于故障寄存器的权重生成各部件的故障加权值;将故障加权值最大的部件确定为故障部件。3.根据权利要求1所述故障处理方法,其特征在于,所述故障诊断规则包括CPU故障诊断规则,利用所述CPU故障诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果,包括:根据CPU中MC Bank寄存器的状态信息和地址信息生成定位结果;其中,所述定位结果包括CPU故障源、所述CPU故障源中的故障模块和故障类型。4.根据权利要求1所述故障处理方法,其特征在于,所述故障诊断规则包括历史故障记录诊断规则,利用所述历史故障记录诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果,包括:判断历史故障记录中是否存在与目标故障寄存器信息相关的故障事件;若是,则基于所述目标故障寄存器信息生成定位结果;其中,所述定位结果包括所述目标故障寄存器信息对应的部件。5.根据权利要求1所述故障处理方法,其特征在于,所述故障诊断规则包括故障时间诊断规则,利用所述故障时间诊断规则基于所述部件的资源信息和对应的故障寄存器信息分别生成故障部件的定位结果,包括:基于异常宕机之前预设时间段内产生的故障寄存器信息生成定位结果;其中,所述定位结果包括所述预设时间段内最晚产生的故障寄存器信息对应的部件。6.根据权利要求1所述故障处理方法,其特征在于,还包括:若每条所述故障诊断规则均不存在对应的定位结果,则输出故障日志;其中,所述故障日志包括所述部件的资源信息和对应的故障寄存器信息;
基于所述故障日志中的错误代码类型创建新的故障诊断规则。7.根据权利要求1所述故障处理方法,其特征在于,还包括:获取每个故障部件的每种故障类型的故障寄存器信息,以生成诊断故障树;其中,所述诊断故障树的第一层节点以故障部件进行分类,第二层...

【专利技术属性】
技术研发人员:陈衍东李道童韩红瑞
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1