【技术实现步骤摘要】
一种服务器内存故障预警方法及系统
本申请涉及服务器内存
,特别涉及一种服务器内存故障预警方法及系统。
技术介绍
在服务器应用领域,读写速率最快的存储外设是内存,而且服务器内存插槽众多,容量非常大,属于最容易出现故障的服务器外设,同时服务器引导软件BIOS(BasicInputOutputSystem,基本输入输出系统)每次启动都会对内存进行初始化,如果内存出现故障,会导致内存初始化失败,服务器出现宕机事件,造成的后果非常严重。目前服务器引导软件BIOS或服务器监控管理软件BMC(BaseboardManagerController,基板管理控制器)常用的方法是当BIOS发现内存有故障的时候,BIOS会通过IPMI(IntelligentPlatformManagementInterface,智能平台管理接口)向BMC发送内存条故障告警事件,BMC只是将内存故障告警事件记录下来供用户主动查询,但是BIOS上报的只是内存条故障事件,并没有对故障内存条出现故障的可能性做出预测,由于BIOS只会在重启阶段对内存进行故障 ...
【技术保护点】
1.一种服务器内存故障预警方法,其特征在于,其包括步骤:/n服务器引导软件BIOS注册管理信息结构SMI中断服务器程序,所述SMI中断服务器程序的函数包括读取内存错误检查和纠正ECC数的函数和内存读写次数的函数,并读取内存ECC数和内存读写次数;/nBIOS判断读取到的内存ECC数和内存读写次数是否满足预设的内存预警条件,若是,则通过智能平台管理接口IPMI向BMC发送所述读取到的内存ECC数和内存读写次数;/n服务器监控管理软件BMC接收所述内存ECC数和内存读写次数,根据预设的预警算法进行内存故障预警的预判处理,并在产生内存故障预警后,触发显示告警事件。/n
【技术特征摘要】
1.一种服务器内存故障预警方法,其特征在于,其包括步骤:
服务器引导软件BIOS注册管理信息结构SMI中断服务器程序,所述SMI中断服务器程序的函数包括读取内存错误检查和纠正ECC数的函数和内存读写次数的函数,并读取内存ECC数和内存读写次数;
BIOS判断读取到的内存ECC数和内存读写次数是否满足预设的内存预警条件,若是,则通过智能平台管理接口IPMI向BMC发送所述读取到的内存ECC数和内存读写次数;
服务器监控管理软件BMC接收所述内存ECC数和内存读写次数,根据预设的预警算法进行内存故障预警的预判处理,并在产生内存故障预警后,触发显示告警事件。
2.如权利要求1所述的服务器内存故障预警方法,其特征在于,所述根据预设的预警算法进行内存故障预警的预判处理的具体步骤包括:
根据内存ECC数和接收ECC数的时间间隔计算内存ECC数的变化速率,结合内存ECC数、内存ECC数的变化速率、内存读写次数、预设的预警算法进行内存故障预警的预判处理。
3.如权利要求2所述的服务器内存故障预警方法,其特征在于,所述预设的预警算法包括:
根据预设的内存条的理论寿命,计算得到每个内存条的预警值,计算公式为:
预警值=内存ECC数*内存ECC数的变化速率*内存读写次数/内存条的理论寿命;
设定一个预警阈值,当内存条的预警值超过设定的预警阈值时,则产生内存故障预警,否则,则不产生内存故障预警。
4.如权利要求1所述的服务器内存故障预警方法,其特征在于,在所述BIOS注册管理信息结构SMI中断服务器程序之前,还包括步骤:
BIOS初始化内存及CPU的内存控制器MC,当初始化内存条失败时,则通过IPMI向BMC发送该内存条不可用的严重告警信息,并跳过该内存条,继续初始化其他内存条;
BMC接收BIOS发送的该内存条不可用的严重告警信息,并根据该内存条不可用的严重告警信息进行内存故障预警。
5.如权利要求1所述的服务器内存故障预警方法,其特征在于,还包括步骤:BMC预先存储预设的内存预警条件;
BMC持续监听内存预警条件更新事件,并在监听到内存预警条件有更新时,BMC更新已存储的内存预警条件;
当BIOS向BMC请求内存预警条件时,若BMC监听到内存预警条件更新,则BMC通过IPMI向BIOS发送更新后的内存预警条件;若BMC没有监听到内存预警条件更新,则BMC通过IPMI向BIOS发送预设的内存预警条件。
6.如权利要求1所述的服务器内存故障预警方法,其特征在于,所述BMC接收所述内存ECC数和内存读写次数的具体步...
【专利技术属性】
技术研发人员:邓艳山,
申请(专利权)人:烽火通信科技股份有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。