【技术实现步骤摘要】
一种基于高斯分布内存故障预测方法、装置、系统、设备
[0001]本专利技术涉及内存故障预测
,具体涉及一种基于高斯分布内存故障预测方法、装置、系统、设备。
技术介绍
[0002]随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。并且服务器内存的数量众多,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。
[0003]内存故障可分为UCE(Uncorrectable Error不可纠正错误)和CE(Correctable Error可纠正错误)。当硬件侦测到一个错误,它会通过两种方式报告给CPU的。其中一种方式是中断,这种情况如果是UCE也就是不可纠正错误,则可能会导致服务器立马宕机。如果是CE,即可纠正错误,硬件会利用一部分资源对该错误进行修复,而当内存CE累计过多,无法进行自我修复时,则会产生UC ...
【技术保护点】
【技术特征摘要】
1.一种基于高斯分布内存故障预测方法,其特征在于,包括如下步骤:定时收集内存的可纠正错误和不可纠正错误发生的时间和次数;分别计算出可纠正错误和不可纠正错误出现的时间方差,并计算出不可纠正错误发生时可纠正错误的数量方差;监控到出现新的可纠正错误时,获取系统预设的预测准确率;判断可纠正错误的数量分布在所述预测准确率对应的范围内时,触发告警信息并记录日志。2.根据权利要求1所述的基于高斯分布内存故障预测方法,其特征在于,分别计算出可纠正错误和不可纠正错误出现的时间方差,并计算出不可纠正错误发生时可纠正错误的数量方差的步骤中,计算出可纠正错误出现的时间方差的公式如下:单根内存出现可纠正错误的时间为x1,x2,x3,
…
,x
n
,出现可纠正错误的时间的平均数为x;可纠正错误出现的时间方差计算不可纠正错误发生时可纠正错误的数量方差的公式如下:单根内存出现不可纠正错误时已经发生可纠正错误的数量为y1,y2,y3,
…
,y
n
,出现不可纠正错误时已经发生可纠正错误的数量的平均数为y;计算不可纠正错误发生时可纠正错误的数量方差:3.根据权利要求2所述的基于高斯分布内存故障预测方法,其特征在于,该方法还包括:设置预测准确率并设置不同的预测准确率对应不同的范围;包括如下:预测准确率为第一阈值时,对应的单根内存出现的可纠正错误数量在(X
‑
A,X+A)范围内;预测准确率为第二阈值时,对应的单根内存出现的可纠正错误数量在(X
‑
2A,X+2A)范围内;预测准确率为第三阈值时,对应的单根内存出现的可纠正错误数量在(X
‑
3A,X+3A)范围内;其中,不可纠正错误发生时可纠正错误的数量方差为A,不可纠正错误发生时可纠正错误的数量的平均值为X。4.根据权利要求3所述的基于高斯分布内存故障预测方法,其特征在于,监控到出现新的可纠正错误时,获取系统预设的预测准确率的步骤包括:监控到出现新的可纠正错误时,计算当前出现的可纠正错误数量B;当系统设定预测准确率为第一阈值,判断B是否分布在(X
‑
A,X+A)范围内;若是,执行步骤:触发告警信息并记录日志;若否,判断B分布在(X
‑
A
‑
1,X+A+1)范围内时,触发设定时间范围内将要发生不可纠正错误的预警信息。
5.根据权...
【专利技术属性】
技术研发人员:张国磊,王宏伟,史春图,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。