【技术实现步骤摘要】
一种服务器上隔离内存故障的方法及装置
本专利技术涉及服务器产品
,特别涉及一种服务器上隔离内存故障的方法及装置。
技术介绍
在目前主流服务器上,如图1所示,内存在安装到服务器之前,产品线会对内存做一些必要的生产测试,筛查出存在风险或问题的内存;服务器在上电启动过程中,会使用不同的软件算法或硬件方法对内存做快速检测,对发现的故障内存进行隔离;在业务和操作系统过程运行阶段,通过ECC(ErrorCorrectingCode,错误检查和纠正)对可纠正的内存错误进行记录、上报(有些服务器可以通过改变应用程序使用的内存空间映射来实现在线“隔离”恢复),对多bit不可纠正的错误做记录、上报,服务器断电后开箱更换或移除故障内存来实现真正的恢复。这些方法存在如下多个缺陷:服务器在上电启动过程,内存自检测试过程中反复卡死无法自愈恢复;硬件原因导致部分内存槽位反复出现内存错误,更换内存也无法根本解决;部分内存的错误出错的概率偏低,出现的周期规律不定,运维人员需要频繁应急处理故障,应急工作量巨大。
技术实现思路
根据本专利技术实施例提供的方案解决的技术问题是服务器在上电启动过程,发生 ...
【技术保护点】
1.一种服务器上隔离内存故障的方法,包括:在服务器上电或重启时,基本输入输出系统BIOS获取基板管理控制器BMC存储的关于服务器内存发生故障的内存故障信息;所述BIOS通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;若判断所述发生故障的内存需要进行隔离处理,则BIOS确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。
【技术特征摘要】
1.一种服务器上隔离内存故障的方法,包括:在服务器上电或重启时,基本输入输出系统BIOS获取基板管理控制器BMC存储的关于服务器内存发生故障的内存故障信息;所述BIOS通过根据服务器的接口配置对所述内存故障信息进行分析,判断发生故障的内存是否需要进行隔离处理;若判断所述发生故障的内存需要进行隔离处理,则BIOS确定所述发生故障的内存的隔离级别,并按照所确定的隔离级别对所述发生故障的内存进行隔离处理。2.根据权利要求1所述的方法,还包括:在服务器操作系统运行期间,BIOS通过系统管理中断SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储。3.根据权利要求2所述的方法,所述BIOS通过SMI获取并解析服务器内存发生故障的内存故障信息,并将所述内存故障信息发送给BMC进行存储包括:所述BIOS通过SMI对服务器内存进行实时监测,确定服务器内存是发生了不可纠正的内存错误还是发生了可纠正的内存错误;若所述BIOS确定服务器内存发生了不可纠正的内存错误,则通过SMI对服务器内存发生的不可纠正的内存错误进行解析,得到第一内存故障信息,并将所述第一内存故障信息发送给BMC进行存储;若所述BIOS确定服务器内存发生了可纠正的内存错误,则通过SMI对服务器内存发生的可纠正的内存错误进行解析,得到第二内存故障信息,并将所述第二内存故障信息发送给BMC进行存储。4.根据权利要求1所述的方法,所述服务器的接口配置包括不可纠正内存错误的接口配置和不可纠正内存错误的接口配置;其中,所述可纠正内存错误的接口配置包括可纠正内存隔离门限值和可纠正隔离级别;所述不可纠正内存错误的接口配置包括不可纠正内存隔离门限值和不可纠正隔离级别。5.根据权利要求1所述的方法,所述内存故障信息包括:内存所属CPU位置、节点、通道、槽位、芯片颗粒、行、列、错误级别、发生次数以及内存生产零件号;所述隔离级别...
【专利技术属性】
技术研发人员:李存龙,
申请(专利权)人:中兴通讯股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。