一种内存故障预警方法和计算设备技术

技术编号:37501382 阅读:19 留言:0更新日期:2023-05-07 09:37
本申请公开了一种内存故障预警方法和计算设备,涉及内存故障检测技术领域,用于提升内存故障预警的准确性。该方法应用于计算设备,计算设备包括至少一个内存条,该方法包括:获取至少一个内存条的功耗值和至少一个内存条的参考功耗值;确定至少一个内存条的功耗值分别与参考功耗值的偏离程度;在偏离程度超出预设范围的情况下,输出预警信息,该预警信息用于指示至少一个内存条中存在偏离程度超出预设范围的目标内存条,该目标内存条是指存在故障风险的内存条。故障风险的内存条。故障风险的内存条。

【技术实现步骤摘要】
一种内存故障预警方法和计算设备


[0001]本申请涉及内存故障检测
,尤其涉及一种内存故障预警方法和计算设备。

技术介绍

[0002]当前,内存故障预警方法通常由基板管理控制器(baseboard management controller,BMC)获取内存已经发生故障中可纠正错误(correctable error,CE)以及不可纠正错误(uncorrectable error,UCE)的发生次数,实现对内存未来发生故障的风险进行预警。然而,根据CE推测内存发生故障的风险存在误报与漏失的可能性较高,因此,如何提升内存故障预警的准确性是目前亟待解决的技术问题。

技术实现思路

[0003]本申请实施例提供了一种内存故障预警方法和计算设备,用于提升内存故障预警的准确性。
[0004]为达到上述目的,本申请的实施例采用如下技术方案:
[0005]第一方面,提供了一种内存故障预警方法,应用于计算设备,计算设备包括至少一个内存条,该方法包括:获取至少一个内存条的功耗值和至少一个内存条的参考功耗值;确定至少一个内存条的功耗值分别与参考功耗值的偏离程度;在偏离程度超出预设范围的情况下,输出预警信息,预警信息用于指示至少一个内存条中存在偏离程度超出预设范围的目标内存条,该目标内存条是指存在故障风险的内存条。
[0006]通过上述方式,基于内存硬件本身的物理信息,通过内存的功耗值判断内存的运行状况,实现内存故障预警,从而避免由于内存中的电路退化,引起系统宕机,提升内存故障预警的准确性。r/>[0007]在一种可能的实现方式中,确定至少一个内存条的功耗值分别与参考功耗值的偏离程度,包括:在至少一个内存条的功耗值中确定大于参考功耗值的一个或多个目标功耗值;计算一个或多个目标功耗值分别与参考功耗值的偏离程度。
[0008]该种可能的实现方式,有助于降低偏离程度的计算复杂度。当前计算设备中可能包括较多数量的内存条,而由于电路退化存在故障风险的内存条的功耗值通常较高,因此,可以针对功耗值高于参考功耗值的内存条进行偏离程度的计算,降低计算量。
[0009]在一种可能的实现方式中,确定至少一个内存条的功耗值分别与参考功耗值的偏离程度,包括:确定至少一个内存条的功耗值中的最大功耗值;计算最大功耗值与参考功耗值的偏离程度。
[0010]该种可能的实现方式,通过计算计算设备中最大功耗值与参考功耗值的偏离程度,有助于进一步地节省计算资源。
[0011]在一种可能的实现方式中,确定至少一个内存条的功耗值分别与参考功耗值的偏离程度,包括:将至少一个内存条的功耗值按照由大到小的顺序进行排序,得到功耗值序
列;逐一计算功耗值序列中的功耗值与参考功耗值的偏离程度;方法还包括:当偏离程度不超出预设范围时,停止计算。
[0012]该种可能的实现方式,有助于计算设备按照由大到小的顺序计算各个内存条的功耗值与参考功耗值的偏离程度,从而输出功耗值相对于参考功耗值偏离程度较大的目标内存条的预警信息,并进一步地停止后续功耗值与参考功耗值的偏离程度的计算,从而节省计算资源。
[0013]在一种可能的实现方式中,获取至少一个内存条的功耗值,包括:周期性获取至少一个内存条的功耗值。
[0014]该种可能的实现方式,通过周期性获取内存的功耗值,有助于BMC自动实现内存故障预警,提升方案的智能性。
[0015]在一种可能的实现方式中,参考功耗值为预设值或至少一个内存条的平均功耗值。
[0016]该种可能的实现方式,提供了在计算设备存在一个内存条的情况下,可以基于预设值确定该内存条的功耗值的偏离程度;在计算设备存在多个内存条的情况下,可以基于平均功耗值确定偏离程度,从而灵活调整偏离程度的计算方式。
[0017]在一种可能的实现方式中,预警信息包括目标内存条的标识,或者,预警信息包括目标内存条的标识以及目标内存条的功耗值。
[0018]该种可能的实现方式,有助于输出内存故障预警所指示的内存条的标识,便于用户及时确认故障风险情况,及时进行调整或修复,避免引起系统宕机。
[0019]第二方面,提供了一种计算设备,包括:用于执行第一方面提供的任意一种方法的功能单元,各个功能单元所执行的动作通过硬件实现或通过硬件执行相应的软件实现。例如,该计算设备可以包括:获取单元、确定单元和输出单元。获取单元,用于获取至少一个内存条的功耗值和至少一个内存条的参考功耗值。确定单元,用于确定至少一个内存条的功耗值分别与参考功耗值的偏离程度。输出单元,用于在偏离程度超出预设范围的情况下,输出预警信息,预警信息用于指示至少一个内存条中存在偏离程度超出预设范围的目标内存条,该目标内存条是指存在故障风险的内存条。
[0020]第三方面,提供了一种计算设备,包括处理器、管理控制器和至少一个内存条,管理控制器和至少一个内存条分别与处理器连接;处理器,用于获取至少一个内存条的第一信息并发送给管理控制器;管理控制器,用于获取第一信息,并根据第一信息确定至少一个内存条的功耗值的偏离程度;管理控制器,还用于输出预警信息,预警信息用于指示至少一个内存条中存在偏离程度超出预设范围的目标内存条,该目标内存条是指存在故障风险的内存条。
[0021]上述计算设备通过处理器获取至少一个内存条的信息,反馈至管理控制器,管理控制器通过确定至少一个内存条的功耗值的偏离程度判断内存的运行情况,实现内存故障预警。上述计算设备有助于避免由于内存中的电路退化,引起系统宕机,实现根据内存的物理信息及时预警,提升内存故障预警的准确性。
[0022]在一种可能的实现方式中,第一信息包括至少一个内存条的功耗值,管理控制器具体用于:根据至少一个内存条的功耗值,确定至少一个内存条的平均功耗值;根据至少一个内存条的功耗值和平均功耗值确定至少一个内存条的功耗值分别与平均功耗值的偏离
程度。
[0023]该种可能的实现方式,管理控制器通过第一信息直接获取至少一个内存条的功耗值,进一步地,通过计算平均功耗值以获取至少一个内存条的功耗值的偏离程度,有助于基于当前至少一个内存条的实际功耗值,确定偏离程度,提升故障预警的准确性。
[0024]在一种可能的实现方式中,第一信息包括至少一个内存条的功耗值和参考功耗值,参考功耗值是预设值或至少一个内存条的平均功耗值;管理控制器具体用于:根据至少一个内存条的功耗值和参考功耗值,确定至少一个内存条的功耗值分别与参考功耗值的偏离程度。
[0025]该种可能的实现方式,管理控制器通过第一信息直接获取至少一个内存条的功耗值和参考功耗值,进一步获取偏离程度,有助于减小管理控制器的计算量,提升方法执行效率。
[0026]在一种可能的实现方式中,第一信息包括至少一个内存条的偏离程度,处理器具体用于:获取至少一个内存条的功耗值和参考功耗值,参考功耗值是预设值或至少一个内存条的平均功耗值;根据至少一个内存条的功耗值和参考功耗值,确定至少一个内存条的功耗值分别与参考功耗值的偏离程度。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种内存故障预警方法,其特征在于,应用于计算设备,所述计算设备包括至少一个内存条,包括:获取所述至少一个内存条的功耗值和参考功耗值;确定所述至少一个内存条的功耗值分别与所述参考功耗值的偏离程度;在所述偏离程度超出预设范围的情况下,输出预警信息,所述预警信息用于指示所述至少一个内存条中存在偏离程度超出预设范围的目标内存条,所述目标内存条是指存在故障风险的内存条。2.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个内存条的功耗值分别与所述参考功耗值的偏离程度,包括:在所述至少一个内存条的功耗值中确定大于所述参考功耗值的一个或多个目标功耗值;计算所述一个或多个目标功耗值分别与所述参考功耗值的偏离程度。3.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个内存条的功耗值分别与所述参考功耗值的偏离程度,包括:确定所述至少一个内存条的功耗值中的最大功耗值;计算所述最大功耗值与所述参考功耗值的偏离程度。4.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个内存条的功耗值分别与所述参考功耗值的偏离程度,包括:将所述至少一个内存条的功耗值按照由大到小的顺序进行排序,得到功耗值序列;逐一计算所述功耗值序列中的功耗值与所述参考功耗值的偏离程度;所述方法还包括:当所述偏离程度不超出所述预设范围时,停止计算。5.根据权利要求1

4任一项所述的方法,其特征在于,所述参考功耗值为预设值或所述至少一个内存条的平均功耗值。6.一种计算设备,其特征在于,包括处理器、管理控制器和至少一个内存条,所述管理控制器和所述至少一个内存条分别与所述处理器连接;所述处理器,用于获取所述至少一个内存条的第一信息并发送给所述管理控制器;所述管理控制器,用于获取所述第一信息,并根据所述第一信息确定所述至少一个内存条的功耗值的偏离程...

【专利技术属性】
技术研发人员:王为
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1