【技术实现步骤摘要】
一种隔离故障内存的方法、设备及介质
本专利技术涉及内存领域,更具体地,特别是指一种隔离故障内存的方法、设备及可读介质。
技术介绍
服务器内存主要用来存储临时数据,做缓存使用。服务器的运行是否稳定与流畅与内存的稳定性及数量息息相关。服务器上使用的内存具有ECC功能,即ErrorCheckingandCorrecting,中文名称是“错误检查和纠正”。内存中的ECC能够容许运行过程中有错误产生,并将错误更正,使得系统得以正常运行,不因内存错误而中断或者宕机。因内存本身工艺的制约,内存包括多个内存颗粒,而主板上的内存通道及连接器等多种因素,在数据中心等大量应用服务器的场景不免会有内存产生错误,当内存产生大量ECC时,该内存即存在故障风险,系统存在宕机或者中断风险。目前服务器通用设计采用BIOS初始化将内存隔离,这种方法无法处理系统运行中出现报错的情况,需专业运维人员参与解决。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种隔离故障内存的方法、设备及介质,通过对具体内存槽位的检测,对出现异常的内存槽位 ...
【技术保护点】
1.一种隔离故障内存的方法,其特征在于,包括由BMC执行以下步骤:/n监控内存的运行状态,并记录ECC数量;/n判断ECC数量是否达到第一阈值;/n响应于ECC数量达到第一阈值,判断是否存在内存槽位发生ECC的数量达到第二阈值;以及/n响应于存在内存槽位发生ECC的数量达到第二阈值,关断对所述槽位的供电。/n
【技术特征摘要】
1.一种隔离故障内存的方法,其特征在于,包括由BMC执行以下步骤:
监控内存的运行状态,并记录ECC数量;
判断ECC数量是否达到第一阈值;
响应于ECC数量达到第一阈值,判断是否存在内存槽位发生ECC的数量达到第二阈值;以及
响应于存在内存槽位发生ECC的数量达到第二阈值,关断对所述槽位的供电。
2.根据权利要求1所述的方法,其特征在于,所述响应于存在内存槽位发生ECC的数量达到第二阈值,关断对所述槽位的供电包括:
将所述槽位的缓存数据迁移到其他内存;以及
响应于完成数据的迁移,使所述槽位下电。
3.根据权利要求1所述的方法,其特征在于,所述监控内存的运行状态包括:
监控CPU与内存槽位交互信息的状态;以及
响应于CPU与内存槽位交互信息出现错误,由BIOS获取对应的内存槽位信息和报错类型信息。
4.根据权利要求3所述的方法,其特征在于,所述记录ECC数量包括:
响应于BMC接收到BIOS传输的内存槽位信息和报错类型信息,对记录ECC数量的变量加一,并基于报错类型信息对接收到的信息进行分级。
5.根据权利要求4所述的方法,其特征在于,还包括:
判断接收到的信息的级别是否达到预定级别;以及
响应于接收到的信息的级别达到预定级别,直接关断对所述槽位的供电。
6.一种计算机设备,其特征在于,包括:...
【专利技术属性】
技术研发人员:杨学总,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。