一种服务器故障诊断告警的方法、装置、设备及介质制造方法及图纸

技术编号:37137514 阅读:14 留言:0更新日期:2023-04-06 21:38
本发明专利技术提供了一种服务器故障诊断告警的方法、装置、设备及可读介质,方法包括:检测服务器的CPU是否触发IERR类故障告警;响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息;将收集到的第一类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险;将原始故障告警的数据格式化成日志,并将异常风险和故障告警划分出严重级别进行输出。通过使用本发明专利技术的方案,能够极大地提高服务器故障诊断能力,使用户能过够准确定位到服务器宕机源,减少了运维和开发人员定位故障的成本,提高了服务器的可靠性和可用性。提高了服务器的可靠性和可用性。提高了服务器的可靠性和可用性。

【技术实现步骤摘要】
一种服务器故障诊断告警的方法、装置、设备及介质


[0001]本专利技术涉及计算机领域,并且更具体地涉及一种服务器故障诊断告警的方法、设备及可读介质。

技术介绍

[0002]伴随着5G大规模部署以及物联网的普及,“万物互联”的时代已经来临,大量数据需求的激增导致服务器保有量不断提升,服务器持续负载运行的同时,不可避免地会出现各种故障问题,例如服务器宕机、内存UCE、PCIE总线挂死、重启等问题。有些类型的故障与其相关的故障高度依赖于增强型错误报告(advanced error reporting,AER)定位分析,AER等相关状态寄存器无法支持带外获取,导致带外故障诊断无法覆盖所有场景和定位粒度较粗等问题。

技术实现思路

[0003]有鉴于此,本专利技术实施例的目的在于提出一种服务器故障诊断告警的方法、装置、设备及可读介质,通过使用本专利技术的技术方案,能够极大地提高服务器故障诊断能力,使用户能过够准确定位到服务器宕机源,减少了运维和开发人员定位故障的成本,提高了服务器的可靠性和可用性。
[0004]基于上述目的,本专利技术的实施例的一个方面提供了一种服务器故障诊断告警的方法,包括以下步骤:
[0005]检测服务器的CPU是否触发IERR类故障告警;
[0006]响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息;
[0007]将收集到的第一类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险;
[0008]将原始故障告警的数据格式化成日志,并将异常风险和故障告警划分出严重级别进行输出。
[0009]根据本专利技术的一个实施例,检测服务器的CPU是否触发IERR类故障告警包括:
[0010]经由CPLD检测从CPU引出的caterr pin是否触发了IERR故障告警;
[0011]经由BMC周期性与CPLD交互以获取IERR故障告警的信息。
[0012]根据本专利技术的一个实施例,响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息包括:
[0013]响应于检测到服务器发生IERR类故障告警,获取MSR寄存器、CSR寄存器和PCIE ROOT PORT寄存器的信息,信息为CPU内部健康状态信息和服务器中PCIE设备状态信息。
[0014]根据本专利技术的一个实施例,还包括:
[0015]检测服务器系统是否触发UCE类故障和FAULT类故障;
[0016]响应于检测到服务器系统触发了UCE类故障和FAULT类故障,分别统计发生UCE类
故障的第一次数和发生FAULT类故障的第二次数;
[0017]将第一次数与第一阈值进行比较,并将第二次数与第二阈值进行比较;
[0018]响应于第一次数小于第一阈值和/或第二次数小于第二阈值,不做任何处理。
[0019]根据本专利技术的一个实施例,还包括:
[0020]响应于第一次数大于第一阈值和/或第二次数大于第二阈值,收集服务器中第二类寄存器中的信息,并将收集到的信息发送到BMC中;
[0021]将收集到的第二类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险和MEM运行的异常风险;
[0022]将原始故障告警的数据格式化成日志,并将异常风险和故障告警划分出严重级别进行输出。
[0023]根据本专利技术的一个实施例,响应于第一次数大于第一阈值和/或第二次数大于第二阈值,收集服务器中第二类寄存器中的信息,并将收集到的信息发送到BMC中包括:
[0024]响应于第一次数大于第一阈值和/或第二次数大于第二阈值,收集MCA寄存器和AER寄存器中的信息,信息包括CPU核的所有状态信息以及CPU描述信息。
[0025]根据本专利技术的一个实施例,将原始故障告警的数据格式化成日志,并将异常风险和故障告警划分出严重级别进行输出包括:
[0026]将严重的告警记录到本地SEL日志中,并通过SNMP和SMTP功能上报给用户以便用户及时了解服务器告警情况;
[0027]维护故障处理建议表,并根据不同的告警信息给用户提供当前状态的处理建议。
[0028]本专利技术的实施例的另一个方面,还提供了一种服务器故障诊断告警的装置,装置包括:
[0029]检测模块,检测模块配置为检测服务器的CPU是否触发IERR类故障告警;
[0030]收集模块,收集模块配置为响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息;
[0031]分析模块,分析模块配置为将收集到的第一类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险;
[0032]告警模块,告警模块配置为将原始故障告警的数据格式化成日志,并将异常风险和故障告警划分出严重级别进行输出。
[0033]本专利技术的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:
[0034]至少一个处理器;以及
[0035]存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。
[0036]本专利技术的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。
[0037]本专利技术具有以下有益技术效果:本专利技术实施例提供的服务器故障诊断告警的方法,通过检测服务器的CPU是否触发IERR类故障告警;响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息;将收集到的第一类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险;将原始故障告警的数据格式化成日志,并将异常风险和故障告警划分出严重级别进行输出的技术方案,能够极大地提高服务器故障诊断能
力,使用户能过够准确定位到服务器宕机源,减少了运维和开发人员定位故障的成本,提高了服务器的可靠性和可用性。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0039]图1为根据本专利技术一个实施例的服务器故障诊断告警的方法的示意性流程图;
[0040]图2为根据本专利技术一个实施例的服务器故障诊断告警的系统的示意图;
[0041]图3为根据本专利技术一个实施例的服务器故障诊断告警的装置的示意图;
[0042]图4为根据本专利技术一个实施例的计算机设备的示意图;
[0043]图5为根据本专利技术一个实施例的计算机可读存储介质的示意图。
具体实施方式
[0044]为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。
[0045]经过对系统故本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务器故障诊断告警的方法,其特征在于,包括以下步骤:检测服务器的CPU是否触发IERR类故障告警;响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息;将收集到的第一类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险;将原始故障告警的数据格式化成日志,并将异常风险和故障告警划分出严重级别进行输出。2.根据权利要求1所述的方法,其特征在于,检测服务器的CPU是否触发IERR类故障告警包括:经由CPLD检测从CPU引出的caterr pin是否触发了IERR故障告警;经由BMC周期性与CPLD交互以获取IERR故障告警的信息。3.根据权利要求1所述的方法,其特征在于,响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息包括:响应于检测到服务器发生IERR类故障告警,获取MSR寄存器、CSR寄存器和PCIE ROOT PORT寄存器的信息,信息为CPU内部健康状态信息和服务器中PCIE设备状态信息。4.根据权利要求1所述的方法,其特征在于,还包括:检测服务器系统是否触发UCE类故障和FAULT类故障;响应于检测到服务器系统触发了UCE类故障和FAULT类故障,分别统计发生UCE类故障的第一次数和发生FAULT类故障的第二次数;将第一次数与第一阈值进行比较,并将第二次数与第二阈值进行比较;响应于第一次数小于第一阈值和/或第二次数小于第二阈值,不做任何处理。5.根据权利要求4所述的方法,其特征在于,还包括:响应于第一次数大于第一阈值和/或第二次数大于第二阈值,收集服务器中第二类寄存器中的信息,并将收集到的信息发送到BMC中;将收集到的第二类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险和MEM运行的异常风险;将原始故障告警的数据格式化成日志...

【专利技术属性】
技术研发人员:张传玺张秀波王然麻书卫
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1