内存故障的处理方法、基板管理控制器及计算系统技术方案

技术编号:35737003 阅读:14 留言:0更新日期:2022-11-26 18:39
本申请实施例公开了一种内存故障的处理方法、基板管理控制器及计算系统。该方法包括:接收内存的可纠正错误CE信息;根据所述CE信息,得到CE分析信息;响应于第一触发信号,将所述CE分析信息保存至基板管理控制器的缓冲区;所述第一触发信号用于指示停止输出所述CE分析信息;响应于第二触发信号,输出所述缓冲区中的所述CE分析信息;所述第二触发信号用于指示输出所述CE分析信息。本申请实施例的方法降低了自愈功能被关闭后,CE信息未被处理给计算系统带来业务中断或宕机的风险。系统带来业务中断或宕机的风险。系统带来业务中断或宕机的风险。

【技术实现步骤摘要】
内存故障的处理方法、基板管理控制器及计算系统


[0001]本申请涉及计算机
,具体涉及一种内存故障的处理方法、基板管理控制器及计算系统。

技术介绍

[0002]随着计算机技术发展,所需的内存容量越来越大,基础失效率越来越高。服务器厂商纷纷推出了内存故障预测和自愈功能。该预测和自愈过程包括:内存控制器检测内存可纠正的错误(corrected error,CE)后,通过基本输入输出系统(basic input/output system,BIOS)将该内存错误上报给基板管理控制器(baseboard management controller,BMC);BMC确定错误类型并向BIOS提交故障隔离请求,进行错误修复。
[0003]但如果频繁修复将会对计算系统的性能造成影响。在实际使用过程中,用户可基于使用需求或周期性关闭自愈功能,这会导致CE错误不被处理或处理不及时,增加计算系统发生宕机的可能性。

技术实现思路

[0004]本申请提供一种内存故障的处理方法、基板管理控制器及计算系统,能够降低计算系统因内存故障导致业务中断或者宕机的风险。
[0005]本申请第一方面提供一种内存故障的处理方法,该方法包括:
[0006]接收内存的可纠正错误CE信息;
[0007]根据该CE信息,得到CE分析信息;
[0008]响应于第一触发信号,将该CE分析信息保存至基板管理控制器的缓冲区;该第一触发信号用于指示停止输出该CE分析信息;
[0009]响应于第二触发信号,输出该缓冲区中的该CE分析信息;该第二触发信号用于指示输出该CE分析信息。
[0010]本申请通过在指示停止输出CE分析信息的第一触发信号被触发时,将CE分析信息保存至缓冲区,并在指示输出CE分析信息的第二触发信号被触发时,处理该缓冲区中的CE分析信息以请求修复内存;可以避免第一触发信号被触发时,CE信息和对应CE分析信息未被处理而导致CE分析时的样本不足的问题,从而能够提高内存修复的准确率和覆盖率,降低计算系统因内存故障导致业务中断或宕机的风险。
[0011]在一种可能的实现中,该缓冲区用于保存第一数量的该CE分析信息;该响应于第二触发信号,输出该缓冲区中的该CE分析信息,包括:响应于第二触发信号,输出该缓冲区中的该第一数量的该CE分析信息。
[0012]在一种可能的实现中,该缓冲区所占用的存储空间为固定大小;该将该CE分析信息保存至基板管理控制器的缓冲区,包括:当该缓冲区的可用空间不足以存储待保存的该CE分析信息时,删除该缓冲区中存入时间最早的该CE分析信息。
[0013]在一种可能的实现中,该删除该缓冲区中存入时间最早的该CE分析信息之前,该
方法还包括:将该存入时间最早的该CE分析信息保存至历史记录文件。
[0014]在一种可能的实现中,该CE分析信息包括CE等级,该CE等级用于指示该CE的风险等级;在该输出该缓冲区中的该CE分析信息之前,该方法还包括:根据该CE等级将缓冲区的该CE分析信息进行排序;该输出该缓冲区中的该CE分析信息,包括:按照该风险等级由高到低的顺序,输出该缓冲区中的该CE分析信息。
[0015]在一种可能的实现中,该响应于第二触发信号,输出该缓冲区中的该CE分析信息,包括:响应于该第二触发信号,将该缓冲区中的该CE分析信息输出至中央处理器(central processing unit,CPU)。
[0016]在一种可能的实现中,该将该缓冲区中的该CE分析信息输出至中央处理器CPU,包括:向该CPU发送携带该缓冲区中的该CE分析信息的硬件隔离请求,以使得BIOS调用该CPU对该内存进行硬件隔离修复。
[0017]在一种可能的实现中,该将该缓冲区中的该CE分析信息发送至中央处理器CPU,包括:向该CPU发送携带该缓冲区中的该CE分析信息的软件隔离请求,以使得操作系统(operating system,OS)调用该CPU对该内存进行软件隔离修复。
[0018]本申请第二方面提供一种计算系统,该计算系统包括管理装置,该管理装置包括内存故障预测和自愈系统,该内存故障预测和自愈系统包括人工智能(artificial intelligence,AI)模块和自愈模块;
[0019]AI模块用于接收内存的可纠正错误CE信息;
[0020]AI模块还用于根据该CE信息,得到CE分析信息;
[0021]自愈模块用于响应于第一触发信号,将该CE分析信息保存至基板管理控制器的缓冲区;该第一触发信号用于指示停止输出该CE分析信息;
[0022]自愈模块还用于响应于第二触发信号,输出该缓冲区中的该CE分析信息;该第二触发信号用于指示输出该CE分析信息。
[0023]在一种可能的实现中,该缓冲区用于保存第一数量的该CE分析信息;自愈模块具体用于:响应于第二触发信号,输出该缓冲区中的该第一数量的该CE分析信息。
[0024]在一种可能的实现中,该缓冲区所占用的存储空间为固定大小;自愈模块具体用于:当该缓冲区的可用空间不足以存储待保存的该CE分析信息时,删除该缓冲区中存入时间最早的该CE分析信息。
[0025]在一种可能的实现中,自愈模块具体还用于将该存入时间最早的该CE分析信息保存至历史记录文件。
[0026]在一种可能的实现中,该CE分析信息包括CE等级,该CE等级用于指示该CE的风险等级;自愈模块还用于:根据该CE等级将缓冲区的该CE分析信息进行排序;自愈模块具体用于按照该风险等级由高到低的顺序,输出该缓冲区中的该CE分析信息。
[0027]在一种可能的实现中,自愈模块具体用于:响应于该第二触发信号,将该缓冲区中的该CE分析信息输出至CPU。
[0028]在一种可能的实现中,自愈模块具体用于:向该CPU发送携带该缓冲区中的该CE分析信息的硬件隔离请求,以使得BIOS调用该CPU对该内存进行硬件隔离修复。
[0029]在一种可能的实现中,自愈模块具体用于:向该CPU发送携带该缓冲区中的该CE分析信息的软件隔离请求,以使得OS调用该CPU对该内存进行软件隔离修复。
[0030]本申请第三方面提供一种基板管理控制器,该基板管理控制器包括:
[0031]处理器和存储器;该处理器和该存储器耦合;
[0032]该存储器用于存储程序指令;
[0033]该处理器用于执行该程序指令,使得该基板管理控制器执行上述第一方面中所述的方法。
[0034]本申请第四方面提供一种计算系统,该计算系统包括CPU、内存、BIOS芯片和如上述第三方面所述的基板管理控制器;该CPU与该内存,该BIOS芯片及该基板管理控制器耦合;该CPU上运行OS。
[0035]应理解的是,上述多个方面的实现和有益效果可相互参考。
附图说明
[0036]图1为本申请实施例提供的一种计算系统100的系统框架图;
[0037]图2为本申请实施例提供的一种内存故障的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内存故障的处理方法,其特征在于,所述方法包括:接收内存的可纠正错误CE信息;根据所述CE信息,得到CE分析信息;响应于第一触发信号,将所述CE分析信息保存至基板管理控制器的缓冲区;所述第一触发信号用于指示停止输出所述CE分析信息;响应于第二触发信号,输出所述缓冲区中的所述CE分析信息;所述第二触发信号用于指示输出所述CE分析信息。2.根据权利要求1所述的方法,其特征在于,所述缓冲区用于保存第一数量的所述CE分析信息;所述响应于第二触发信号,输出所述缓冲区中的所述CE分析信息,包括:响应于所述第二触发信号,输出所述缓冲区中的所述第一数量的所述CE分析信息。3.根据权利要求1或2所述的方法,其特征在于,所述缓冲区所占用的存储空间为固定大小;所述将所述CE分析信息保存至基板管理控制器的缓冲区,包括:当所述缓冲区的可用空间不足以存储待保存的所述CE分析信息时,删除所述缓冲区中存入时间最早的所述CE分析信息。4.根据权利要求3所述的方法,其特征在于,所述删除所述缓冲区中存入时间最早的所述CE分析信息之前,所述方法还包括:将所述存入时间最早的所述CE分析信息保存至历史记录文件。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述CE分析信息包括CE等级,所述CE等级用于指示所述CE的风险等级;在所述输出所述缓冲区中的所述CE分析信息之前,所述方法还包括:根据所述CE等级将所述缓冲区中的所述CE分析信息进行排序;所述输出所述缓...

【专利技术属性】
技术研发人员:韦炜玮鲍全洋张光彪林祯张俊龙
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1