一种服务器内存故障预警方法技术

技术编号:39648858 阅读:6 留言:0更新日期:2023-12-09 11:17
本申请公开了一种服务器内存故障预警方法

【技术实现步骤摘要】
一种服务器内存故障预警方法、装置、设备及存储介质


[0001]本申请涉及计算机
,特别涉及一种服务器内存故障预警方法

装置

设备及存储介质


技术介绍

[0002]随着服务器技术的蓬勃发展,服务器在各个领域得到了广泛的应用,而作为服务器的主要部件之一,内存已经成为了影响系统稳定性的故障高发部件,因此,如何在内存发生严重故障之前,提前识别出故障并对故障进行处理是本领域需要解决的技术问题

[0003]目前,为了保证服务器系统的稳定性和可靠性,服务器通常通过内存漏斗机制来处理内存中的可纠正错误,如通过
ECC(Error Correction Code
,纠错码
)
机制对发生在内存系统中可以被纠正的错误
(

Correctable Error

CE
错误
)
进行识别,并对其进行纠正

例如,当内存系统中的数据出现位翻转或其他硬件故障时,使用
ECC
机制检测到这些错误并对其进行纠正

具体的,内存漏斗机制的工作原理是通过漏斗计数器来记录每条内存发生的可纠正错误的次数,并定时轮询漏斗计数器,当监测到可纠正错误的次数达到预设阈值时,则触发故障预警,从而提示相关服务器管理人员进行故障处理

[0004]然而,某些服务器,如海光平台的服务器由于寄存器的硬件限制,最高只能支持
>4095
个的内存可纠正错误计数,由于该阈值较低,因此会导致内存故障预警的准确性不高

另一方面,某些内存故障属于软故障
(
如宇宙射线导致的比特翻转

突发的电磁干扰等
)
,这类故障会在一定时间内自动恢复正常,并非不可纠正错误,此时如果依然采用纯计数的方式进行故障预警,则很容易造成预警误报,导致内存的误更换,进而造成服务器的运行及维护效率低下


技术实现思路

[0005]有鉴于此,本申请的目的在于提供一种服务器内存故障预警方法

装置

设备及存储介质,能够提升服务器内存故障预警的准确性,避免内存的误更换,降低服务器的维护成本

其具体方案如下:
[0006]第一方面,本申请公开了一种服务器内存故障预警方法,包括:
[0007]获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;
[0008]监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中;
[0009]基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;
[0010]判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件;
[0011]统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;
[0012]判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故
障预警信息,以对所述目标内存进行故障预警

[0013]可选的,所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,包括:
[0014]从服务器的基本输入输出系统中获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;所述可纠正错误漏斗参数配置信息中包括可纠正错误漏斗周期

可纠正错误漏斗频率和所述可纠正错误漏斗阈值

[0015]可选的,所述监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中,包括:
[0016]通过所述基本输入输出系统监测所述目标内存触发的可纠正错误,并将监测到的所述可纠正错误的数量记录至位于所述基本输入输出系统的目标漏斗计数器中

[0017]可选的,所述基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,包括:
[0018]通过所述目标漏斗计数器统计单个所述可纠正错误漏斗周期内所述可纠正错误的数量,得到统计结果;
[0019]计算所述可纠正错误漏斗周期与所述可纠正错误漏斗频率的乘积,得到目标乘积结果;
[0020]计算所述统计结果与所述目标乘积结果的差值,得到单个所述可纠正错误漏斗周期内所述目标漏斗计数器的当前实际计数值

[0021]可选的,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,包括:
[0022]判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;
[0023]如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件,并获取所述可纠正错误风暴事件的记录时间;
[0024]将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器;
[0025]相应的,所述判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警,包括:
[0026]通过所述基板管理控制器判断所述目标风暴事件次数是否大于预设次数阈值;
[0027]如果所述目标风暴事件次数大于所述预设次数阈值,则判定所述目标内存存在发生故障的可能,并生成相应的内存故障预警信息,以对所述目标内存进行故障预警

[0028]可选的,所述将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器之后,还包括:
[0029]通过所述基板管理控制器将所述可纠正错误风暴事件

所述记录时间和对应的所述目标内存进行绑定

[0030]可选的,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值之后,还包括:
[0031]如果所述当前实际计数值不大于所述可纠正错误漏斗阈值,则将所述目标漏斗计数器的当前实际计数值清零,并重新执行所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息的步骤

[0032]第二方面,本申请公开了一种服务器内存故障预警装置,包括:
[0033]信息获取模块,用于获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;
[0034]监测模块,用于监测所述目标内存触发的可纠正错误;
[0035]数量记录模块,用于将所述可纠正错误的数量记录至目标漏斗计数器中;
[0036]计算模块,用于基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;
[0037]第一判断模块,用于判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;
[0038]事件记录模块,用于如果所述当前实际计数值大于所述可纠本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种服务器内存故障预警方法,其特征在于,包括:获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中;基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值;判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件;统计预设时间内记录的所有所述可纠正错误风暴事件,得到目标风暴事件次数;判断所述目标风暴事件次数是否大于预设次数阈值,若是,则生成相应的内存故障预警信息,以对所述目标内存进行故障预警
。2.
根据权利要求1所述的服务器内存故障预警方法,其特征在于,所述获取服务器中目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息,包括:从服务器的基本输入输出系统中获取目标内存的可纠正错误漏斗参数配置信息,得到目标配置信息;所述可纠正错误漏斗参数配置信息中包括可纠正错误漏斗周期

可纠正错误漏斗频率和所述可纠正错误漏斗阈值
。3.
根据权利要求2所述的服务器内存故障预警方法,其特征在于,所述监测所述目标内存触发的可纠正错误,并将所述可纠正错误的数量记录至目标漏斗计数器中,包括:通过所述基本输入输出系统监测所述目标内存触发的可纠正错误,并将监测到的所述可纠正错误的数量记录至位于所述基本输入输出系统的目标漏斗计数器中
。4.
根据权利要求2所述的服务器内存故障预警方法,其特征在于,所述基于所述可纠正错误的数量和所述目标配置信息计算所述目标漏斗计数器的当前实际计数值,包括:通过所述目标漏斗计数器统计单个所述可纠正错误漏斗周期内所述可纠正错误的数量,得到统计结果;计算所述可纠正错误漏斗周期与所述可纠正错误漏斗频率的乘积,得到目标乘积结果;计算所述统计结果与所述目标乘积结果的差值,得到单个所述可纠正错误漏斗周期内所述目标漏斗计数器的当前实际计数值
。5.
根据权利要求4所述的服务器内存故障预警方法,其特征在于,所述判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值,若是,则记录一次可纠正错误风暴事件,包括:判断所述当前实际计数值是否大于预设的可纠正错误漏斗阈值;如果所述当前实际计数值大于所述可纠正错误漏斗阈值,则记录一次可纠正错误风暴事件,并获取所述可纠正错误风暴事件的记录时间;将所述可纠正错误风暴事件和所述记录时间一并上报至基板管理控制器;相应的,所述判断所述目标...

【专利技术属性】
技术研发人员:龚树青
申请(专利权)人:浪潮山东计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1