【技术实现步骤摘要】
一种服务器故障诊断告警的方法、装置、设备及介质
[0001]本专利技术涉及计算机领域,并且更具体地涉及一种服务器故障诊断告警的方法、设备及可读介质。
技术介绍
[0002]伴随着5G大规模部署以及物联网的普及,“万物互联”的时代已经来临,大量数据需求的激增导致服务器保有量不断提升,服务器持续负载运行的同时,不可避免地会出现各种故障问题,例如服务器宕机、内存UCE、PCIE总线挂死、重启等问题。有些类型的故障与其相关的故障高度依赖于增强型错误报告(advanced error reporting,AER)定位分析,AER等相关状态寄存器无法支持带外获取,导致带外故障诊断无法覆盖所有场景和定位粒度较粗等问题。
技术实现思路
[0003]有鉴于此,本专利技术实施例的目的在于提出一种服务器故障诊断告警的方法、装置、设备及可读介质,通过使用本专利技术的技术方案,能够极大地提高服务器故障诊断能力,使用户能过够准确定位到服务器宕机源,减少了运维和开发人员定位故障的成本,提高了服务器的可靠性和可用性。
[0004]基 ...
【技术保护点】
【技术特征摘要】
1.一种服务器故障诊断告警的方法,其特征在于,包括以下步骤:检测服务器的CPU是否触发IERR类故障告警;响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息;将收集到的第一类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险;将原始故障告警的数据格式化成日志,并将异常风险和故障告警划分出严重级别进行输出。2.根据权利要求1所述的方法,其特征在于,检测服务器的CPU是否触发IERR类故障告警包括:经由CPLD检测从CPU引出的caterr pin是否触发了IERR故障告警;经由BMC周期性与CPLD交互以获取IERR故障告警的信息。3.根据权利要求1所述的方法,其特征在于,响应于检测到服务器发生IERR类故障告警,收集服务器中第一类寄存器中的信息包括:响应于检测到服务器发生IERR类故障告警,获取MSR寄存器、CSR寄存器和PCIE ROOT PORT寄存器的信息,信息为CPU内部健康状态信息和服务器中PCIE设备状态信息。4.根据权利要求1所述的方法,其特征在于,还包括:检测服务器系统是否触发UCE类故障和FAULT类故障;响应于检测到服务器系统触发了UCE类故障和FAULT类故障,分别统计发生UCE类故障的第一次数和发生FAULT类故障的第二次数;将第一次数与第一阈值进行比较,并将第二次数与第二阈值进行比较;响应于第一次数小于第一阈值和/或第二次数小于第二阈值,不做任何处理。5.根据权利要求4所述的方法,其特征在于,还包括:响应于第一次数大于第一阈值和/或第二次数大于第二阈值,收集服务器中第二类寄存器中的信息,并将收集到的信息发送到BMC中;将收集到的第二类寄存器的信息发送到诊断规则库中以分析当前CPU运行的异常风险和MEM运行的异常风险;将原始故障告警的数据格式化成日志...
【专利技术属性】
技术研发人员:张传玺,张秀波,王然,麻书卫,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。