基于RAS的内存信息收集解析方法、系统、设备及介质技术方案

技术编号:38335728 阅读:7 留言:0更新日期:2023-08-02 09:16
本发明专利技术提供一种基于RAS的内存信息收集解析方法、系统、设备及介质,属于内存故障信息处理技术领域,包括如下步骤:BMC对RAS内存管理系统的内存信息进行自检,收集DIMM信息;BMC对保存的DIMM信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;BMC对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。本发明专利技术通过收集解析RAS内存故障管理系统内存信息,对已出现故障内存检测并记录,提前预判内存故障风险,预防服务器宕机;精准识别到具体槽位故障,减少不必要的DIMM更换和维护,变相延长了DIMM的使用周期,节约资源并减少维护成本。并减少维护成本。并减少维护成本。

【技术实现步骤摘要】
基于RAS的内存信息收集解析方法、系统、设备及介质


[0001]本专利技术属于内存故障信息处理
,具体涉及一种基于RAS的内存信息收集解析方法、系统、设备及介质。

技术介绍

[0002]RAS,是Reliability Availability Serviceability的简称,可靠性、可用性和可维护性。
[0003]DIMM,是Dual Inline Memory Modules的简称,双列直插内存模块。
[0004]随着数据中心的发展,服务器的应用越来越广泛,服务器的可靠性、可用性、可维护性就越来越重要。由于服务器的程序是在内存中运行的,随着内存频率越来越高,内存颗粒的密度越来越大,内存容量也越来越大,导致内存出现问题的概率越来越多,而内存故障已成为数据中心出现故障次数最多的问题。
[0005]内存RAS系统是服务器内部的内存故障管理系统,可自动恢复部分内存故障,但当内存故障严重至无法恢复时,服务器会直接宕机,此时会需要通过带外管理系统来恢复或软件重启,尤其当出现内存硬件永久性故障,还需要更换新的硬件或者启用设备进行修复。而内存故障导致的服务器宕机会影响数据中心的稳定性,尤其当出现永久性故障需要更换内存时,等待时间更加长,无法保证数据安全,急需一种能够及时发现内存故障,在服务器宕机前进行故障预警的方式来保证数据中心的稳定性。
[0006]针对上述缺陷,提供一种基于RAS的内存信息收集解析方法、系统、设备及介质,是非常有必要的。

技术实现思路

[0007]针对上述数据中心的内存故障严重至服务器宕机时,会影响数据中心稳定性的缺陷,本专利技术提供一种基于RAS的内存信息收集解析方法、系统、设备及介质,以解决上述技术问题。
[0008]第一方面,本专利技术提供一种基于RAS的内存信息收集解析方法,包括如下步骤:
[0009]S1.基板管理控制器对RAS内存管理系统的内存信息进行自检,收集双列直插内存模块信息;
[0010]S2.基板管理控制器对保存的双列直插内存模块信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;
[0011]S3.基板管理控制器对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。
[0012]进一步地,步骤S1具体步骤如下:
[0013]S11.基板管理控制器接收安全外壳协议登录指令,判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;
[0014]当需要监测所有在位双列直插内存模块信息时,进入步骤S12;
[0015]当需要监测指定名称的双列直插内存模块信息时,进入步骤S13;
[0016]S12.基板管理控制器通过信息收集指令使用高速串行计算机扩展总线标准通道访问RAS内存故障管理系统,进行所有双列直插内存模块信息自检,并进行收集,进入步骤S14;
[0017]S13.基板管理控制器根据输入的双列直插内存模块名称通过信息收集指令,使用高速串行计算机扩展总线标准通道访问RAS内存故障管理系统进行指定双列直插内存模块信息自检,并进行收集,进入步骤S14;
[0018]S14.基板管理控制器将收集的双列直插内存模块信息进行保存,生成双列直插内存模块信息原始文件。
[0019]进一步地,步骤S2具体步骤如下:
[0020]S21.基板管理控制器通过信息解析指令对双列直插内存模块信息原始文件进行解析,判断内存是否存在故障;
[0021]若是,进入步骤S22;
[0022]若否,进入步骤S23;
[0023]S22.基板管理控制器将故障内存的双列直插内存模块信息保存到内存故障日志文件中;
[0024]S23.基板管理控制器将解析后的双列直插内存模块信息文件进行保存,生成双列直插内存模块信息解析文件。
[0025]进一步地,步骤S14中,基板管理控制器将双列直插内存模块信息原始文件按照设定的路径存储在数字安全卡处;
[0026]步骤S22中,基板管理控制器将内存故障日志文件按照设定的路径存在数字安全卡处;
[0027]步骤S23中,基板管理控制器将解析后的双列直插内存模块信息文件按照设定路径存储在数字安全卡处。
[0028]进一步地,还包括如下步骤:
[0029]定时对基板管理控制器的数字安全卡容量进行检测,判断数字安全卡可用容量是否小于设定阈值,并在数字安全卡可用容量小于设定阈值时,将数字安全卡上存储时间大于时间阈值的对应双列直插内存模块信息文件迁移到远程服务器进行存储。
[0030]进一步地,双列直插内存模块信息原始文件及双列直插内存模块信息解析文件中双列直插内存模块信息包括双列直插内存模块身份识别号、槽位、通道以及序列号;
[0031]内存故障文件中故障内存的双列直插内存模块信息包括双列直插内存模块故障槽位以及故障类型。
[0032]进一步地,步骤S3具体步骤如下:
[0033]S31.基板管理控制器按照预设周期对内存故障文件中所有故障内存的双列直插内存模块信息进行分析;
[0034]S32.基板管理控制器判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;
[0035]当需要监测所有在位双列直插内存模块信息时,进入步骤S34;
[0036]当需要监测指定名称的双列直插内存模块信息时,进入步骤S33;
[0037]S33.基板管理控制器判断指定名称的双列直插内存模块是否发生故障,并在发生故障时,输出该双列直插内存模块的故障槽位以及故障通道,结束;
[0038]S34.基板管理控制器统计所有发生故障的双列直插内存模块数量及对应故障槽位和故障通道,并与历史服务器宕机故障发生时对应参数进行匹配,判断匹配指数是否超过预设阈值;
[0039]若是,进入服务器宕机故障预警;
[0040]若否,返回步骤S11。
[0041]进一步地,步骤S34具体步骤如下:
[0042]S341.基板管理控制器根据历史服务器宕机故障时的故障双列直插内存模块信息对服务器内发生故障双列直插内存模块数量比例进行设定,记为第一比例,对需要替换的故障双列直插内存模块内通道故障数量比例进行设定,记为第二比例;
[0043]S342.基板管理控制器根据双列直插内存模块槽位信息统计服务器中在位双列直插内存模块数量与故障双列直插内存模块数量,并判断故障双列直插内存模块数量与在位双列直插内存模块数量是否超过第一比例;
[0044]若是,进入步骤S345;
[0045]若否,进入步骤S343;
[0046]S343.基板管理控制器对存在故障双列直插内存模块逐个进行检测,判断存在故障通道数量占总通道数量比值是否超过第二比例;
[0047]若是,进入步骤S344;
[0048]若否,返回步骤S11;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于RAS的内存信息收集解析方法,其特征在于,包括如下步骤:S1.基板管理控制器对可靠性可用性可维护性内存管理系统的内存信息进行自检,收集双列直插内存模块信息;S2.基板管理控制器对保存的双列直插内存模块信息文件进行解析,并根据内存故障情况单独记录内存故障日志文件;S3.基板管理控制器对内存故障日志文件进行分析,对内存故障导致的服务器宕机故障进行预判,并在预判结果超过预设阈值时,进行预警。2.如权利要求1所述的基于RAS的内存信息收集解析方法,其特征在于,步骤S1具体步骤如下:S11.基板管理控制器接收安全外壳协议登录指令,判断需要监测所有在位双列直插内存模块信息还是指定名称的双列直插内存模块信息;当需要监测所有在位双列直插内存模块信息时,进入步骤S12;当需要监测指定名称的双列直插内存模块信息时,进入步骤S13;S12.基板管理控制器通过信息收集指令使用高速串行计算机扩展总线标准通道访问可靠性可用性可维护性内存故障管理系统,进行所有双列直插内存模块信息自检,并进行收集,进入步骤S14;S13.基板管理控制器根据输入的双列直插内存模块名称通过信息收集指令,使用高速串行计算机扩展总线标准通道访问可靠性可用性可维护性内存故障管理系统进行指定双列直插内存模块信息自检,并进行收集,进入步骤S14;S14.基板管理控制器将收集的双列直插内存模块信息进行保存,生成双列直插内存模块信息原始文件。3.如权利要求2所述的基于RAS的内存信息收集解析方法,其特征在于,步骤S2具体步骤如下:S21.基板管理控制器通过信息解析指令对双列直插内存模块信息原始文件进行解析,判断内存是否存在故障;若是,进入步骤S22;若否,进入步骤S23;S22.基板管理控制器将故障内存的双列直插内存模块信息保存到内存故障日志文件中;S23.基板管理控制器将解析后的双列直插内存模块信息文件进行保存,生成双列直插内存模块信息解析文件。4.如权利要求3所述的基于RAS的内存信息收集解析方法,其特征在于,步骤S14中,基板管理控制器将双列直插内存模块信息原始文件按照设定的路径存储在数字安全卡处;步骤S22中,基板管理控制器将内存故障日志文件按照设定的路径存在数字安全卡卡处;步骤S23中,基板管理控制器将解析后的双列直插内存模块信息文件按照设定路径存储在数字安全卡处。5.如权利要求4所述的基于RAS的内存信息收集解析方法,其特征在于,还包括如下步骤:

【专利技术属性】
技术研发人员:张梦婷
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1