一种监控内存错误的方法、装置和计算机可读存储介质制造方法及图纸

技术编号:21605171 阅读:61 留言:0更新日期:2019-07-13 18:06
本发明专利技术实施例公开了一种监控内存错误的方法、装置和计算机可读存储介质,记录各rank发生错误的时间戳和错误次数;判断目标rank的目标错误次数是否大于或等于风暴阈值;若是,则根据当前时间以及目标rank的各时间戳,计算出目标rank发生错误的时间差;判断时间差是否小于或等于预设风暴时间;当时间差小于或等于预设风暴时间时,则向操作系统发送提醒信息。当时间差大于预设风暴时间时,则将目标错误次数清零,并返回记录各rank发生错误的时间戳和错误次数的步骤。通过对内存中各rank的错误次数和发生这些错误的时间进行判断,实现了对各rank错误发生频率的检测,提升了内存健康状态评价的准确性。

A Method, Device and Computer Readable Storage Media for Monitoring Memory Errors

【技术实现步骤摘要】
一种监控内存错误的方法、装置和计算机可读存储介质
本专利技术涉及数据处理
,特别是涉及一种监控内存错误的方法、装置和计算机可读存储介质。
技术介绍
随着互联网时代的发展,对海量数据处理能力的需求正在快速增长,从而对服务器提出了更高的要求。在网络技术、虚拟化技术、分布式应用快速发展的今天,服务器所要求的可用性,可靠性,可服务性的指标越来越高。数据纠错能力反映了服务器的可靠性,在各个业务运行期间,服务器存在大量的内存数据访问。一般Intel硬件都自带纠错功能,可对内存数据访问出现的可纠正内存错误进行纠错。当内存的存储性能较高时,其出错的次数较少;当内存的存储性能变差时,其出错的次数会变得频繁。现在技术中,对服务器固件的错误检查和纠正(ErrorCorrectingCode,ECC)主要是通过每个内存的单个Rank内ECC错误计数来监测,用户可在基本输入输出(BasicInputOutputSystem,BIOS)的setup选项设置ECC阈值。当ECC计数达到ECC阈值则发送日志,用户可通过操作系统(OperatingSystem,OS)或监控管理软件获得当前内存的健康状态。但是单纯记录每个Rank发生错误的个数,对于内存的健康状态的评价不够客观。可见,如何提升内存健康状态评价的准确性,是本领域技术人员亟待解决的问题。
技术实现思路
本专利技术实施例的目的是提供一种监控内存错误的方法、装置和计算机可读存储介质,可以提升内存健康状态评价的准确性。为解决上述技术问题,本专利技术实施例提供一种监控内存错误的方法,包括:记录各rank发生错误的时间戳和错误次数;判断目标rank的目标错误次数是否大于或等于风暴阈值;其中,目标rank为所有所述rank中的任意一个rank;若是,则根据当前时间以及所述目标rank的各时间戳,计算出所述目标rank发生错误的时间差;判断所述时间差是否小于或等于预设风暴时间;若是,则向操作系统发送提醒信息;若否,则将所述目标错误次数清零,并返回所述记录各rank发生错误的时间戳和错误次数的步骤。可选的,还包括:当目标rank的目标错误次数清零时,对目标rank的累加值加一;每出现一次目标rank错误次数大于或等于风暴阈值时,则对目标rank的累加值加一;判断所述累加值是否大于或等于预设阈值;当所述累加值大于或等于预设阈值时,依据所述目标错误次数、所述累加值以及所述风暴阈值,计算出所述目标rank的累计错误次数;判断所述累计错误次数是否小于累计阈值;当所述累计错误次数大于或等于累计阈值时,则将所述目标rank的数据进行搬移;当所述累计错误次数小于累计阈值时,则根据当前时间以及所述目标rank的各累计时间戳,计算出所述目标rank发生错误的累计时间差;判断所述累计时间差是否小于或等于预设周期时间;若是,则向操作系统发送提醒信息;若否,则将所述目标rank的累加值以及累计错误次数清零,并返回所述记录各rank发生错误的时间戳和错误次数的步骤。可选的,所述依据所述目标错误次数、所述累加值以及所述风暴阈值,计算出所述目标rank的累计错误次数包括:按照如下公式计算目标rank的累计错误次数M,M=N+(W*C);其中,N表示目标rank的错误次数;C表示目标rank的累加值;W表示风暴阈值。可选的,所述将所述目标rank的数据进行搬移包括:将所述目标rank上的数据迁移至冗余rank上。可选的,在将所述目标rank的数据进行搬移之后还包括:对所述目标rank设置隔离标识,以便于系统停止向所述目标rank写入数据。本专利技术实施例还提供了一种监控内存错误的装置,包括记录单元、第一判断单元、计算单元、第二判断单元、提示单元和清零单元;所述记录单元,用于记录各rank发生错误的时间戳和错误次数;所述第一判断单元,用于判断目标rank的目标错误次数是否大于或等于风暴阈值;其中,目标rank为所有所述rank中的任意一个rank;若是,则触发所述计算单元;所述计算单元,用于根据当前时间以及所述目标rank的各时间戳,计算出所述目标rank发生错误的时间差;所述第二判断单元,用于判断所述时间差是否小于或等于预设风暴时间;若是,则触发所述提示单元;若否,则触发所述清零单元;所述提示单元,用于向操作系统发送提醒信息;所述清零单元,用于将所述目标错误次数清零,并返回所述记录各rank发生错误的时间戳和错误次数的步骤。可选的,还包括累加单元、第三判断单元、累计错误计算单元、第四判断单元、搬移单元、时间差计算单元、第五判断单元;所述累加单元,用于当目标rank的目标错误次数清零时,对目标rank的累加值加一;每出现一次目标rank错误次数大于或等于风暴阈值时,则对目标rank的累加值加一;所述第三判断单元,用于判断所述累加值是否大于或等于预设阈值;所述累计错误计算单元,用于当所述累加值大于或等于预设阈值时,依据所述目标错误次数、所述累加值以及所述风暴阈值,计算出所述目标rank的累计错误次数;所述第四判断单元,用于判断所述累计错误次数是否小于累计阈值;若否,则触发所述搬移单元;若是,则触发所述时间差计算单元;所述搬移单元,用于,则将所述目标rank的数据进行搬移;所述时间差计算单元,用于根据当前时间以及所述目标rank的各累计时间戳,计算出所述目标rank发生错误的累计时间差;所述第五判断单元,用于判断所述累计时间差是否小于或等于预设周期时间;若是,则触发所述提示单元向操作系统发送提醒信息;若否,则触发所述清零单元将所述目标rank的累加值以及累计错误次数清零,并返回所述记录各rank发生错误的时间戳和错误次数的步骤。可选的,所述累计错误计算单元具体用于按照如下公式计算目标rank的累计错误次数M,M=N+(W*C);其中,N表示目标rank的错误次数;C表示目标rank的累加值;W表示风暴阈值。可选的,所述搬移单元具体用于将所述目标rank上的数据迁移至冗余rank上。可选的,还包括设置单元;所述设置单元,用于在将所述目标rank的数据进行搬移之后,对所述目标rank设置隔离标识,以便于系统停止向所述目标rank写入数据。本专利技术实施例还提供了一种监控内存错误的装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如上述监控内存错误的方法的步骤。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述监控内存错误的方法的步骤。由上述技术方案可以看出,记录各rank发生错误的时间戳和错误次数;以所有rank中的任意一个rank即目标rank为例,判断目标rank的目标错误次数是否大于或等于风暴阈值;当目标错误次数大于或等于风暴阈值时,则说明目标rank中数据出错率较高,此时可以根据当前时间以及所述目标rank的各时间戳,计算出所述目标rank发生错误的时间差;判断时间差是否小于或等于预设风暴时间;当时间差小于或等于预设风暴时间时,则说明目标rank在较短时间内产生了较多的错误,此时可以向操作系统发送提醒信息。当时间差大于预设风暴时间时,则说明目标rank虽然产生了较多错误,但是这些错误是经过较长时间的积累,通过目标rank自带的纠本文档来自技高网...

【技术保护点】
1.一种监控内存错误的方法,其特征在于,包括:记录各rank发生错误的时间戳和错误次数;判断目标rank的目标错误次数是否大于或等于风暴阈值;其中,目标rank为所有所述rank中的任意一个rank;若是,则根据当前时间以及所述目标rank的各时间戳,计算出所述目标rank发生错误的时间差;判断所述时间差是否小于或等于预设风暴时间;若是,则向操作系统发送提醒信息;若否,则将所述目标错误次数清零,并返回所述记录各rank发生错误的时间戳和错误次数的步骤。

【技术特征摘要】
1.一种监控内存错误的方法,其特征在于,包括:记录各rank发生错误的时间戳和错误次数;判断目标rank的目标错误次数是否大于或等于风暴阈值;其中,目标rank为所有所述rank中的任意一个rank;若是,则根据当前时间以及所述目标rank的各时间戳,计算出所述目标rank发生错误的时间差;判断所述时间差是否小于或等于预设风暴时间;若是,则向操作系统发送提醒信息;若否,则将所述目标错误次数清零,并返回所述记录各rank发生错误的时间戳和错误次数的步骤。2.根据权利要求1所述的方法,其特征在于,还包括:当目标rank的目标错误次数清零时,对目标rank的累加值加一;每出现一次目标rank错误次数大于或等于风暴阈值时,则对目标rank的累加值加一;判断所述累加值是否大于或等于预设阈值;当所述累加值大于或等于预设阈值时,依据所述目标错误次数、所述累加值以及所述风暴阈值,计算出所述目标rank的累计错误次数;判断所述累计错误次数是否小于累计阈值;当所述累计错误次数大于或等于累计阈值时,则将所述目标rank的数据进行搬移;当所述累计错误次数小于累计阈值时,则根据当前时间以及所述目标rank的各累计时间戳,计算出所述目标rank发生错误的累计时间差;判断所述累计时间差是否小于或等于预设周期时间;若是,则向操作系统发送提醒信息;若否,则将所述目标rank的累加值以及累计错误次数清零,并返回所述记录各rank发生错误的时间戳和错误次数的步骤。3.根据权利要求2所述的方法,其特征在于,所述依据所述目标错误次数、所述累加值以及所述风暴阈值,计算出所述目标rank的累计错误次数包括:按照如下公式计算目标rank的累计错误次数M,M=N+(W*C);其中,N表示目标rank的错误次数;C表示目标rank的累加值;W表示风暴阈值。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述将所述目标rank的数据进行搬移包括:将所述目标rank上的数据迁移至冗余rank上。5.根据权利要求1-3任意一项所述的方法,其特征在于,在将所述目标rank的数据进行搬移之后还包括:对所述目标rank设置隔离标识,以便于系统停止向所述目标rank写入数据。6.一种监控内存错误的装置,其特征在于,包括记录单元、第一判断单元、计算单元、第二判断单元、提示单元和清零单元;所述记录单元,用于记录各rank发生错误的时间戳和错误次数;所述第一判断单元,用于判断目标rank的目标错误次...

【专利技术属性】
技术研发人员:罗鹏芳
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1