【技术实现步骤摘要】
内存故障预测方法、装置、系统及监测服务器
[0001]本专利技术涉及服务器
,尤其涉及一种内存故障预测方法、装置、系统及监测服务器。
技术介绍
[0002]在云计算时代,金融系统在云端部署,底层宿主机在使用的过程中,系统内核与硬件进行数据交互。交互的过程会有大量的数据进行流动,从CPU到内存或是从内存到硬盘,都会产生大量的IO操作。由于周围物理环境的影响或者电压的产生不明原因的波动,内存的部分位会产生可修复的错误,并且这些错误会被系统内核监测到,这些CE情况会被记录到系统message日志中。如果内存由于其他原因出现真正的UCE情况时,则内存失效,这将会导致我们的系统出现卡死或者宕机的情况,影响服务器安全稳定运行。
[0003]因此,为了保证系统对客户提供数据服务的持续性以及完整性,亟需一种可以提前预测内存故障的方案。
技术实现思路
[0004]有鉴于此,本专利技术实施例提供一种内存故障预测方法、装置、系统及监测服务器,以实现提前预测内存故障的目的。
[0005]为实现上述目的,本专利技 ...
【技术保护点】
【技术特征摘要】
1.一种内存故障预测方法,其特征在于,应用于监测服务器,所述监测服务器与目标服务器之间建立有访问连接,所述方法包括:在预设周期内采集目标服务器的系统日志和BMC日志;获取所述目标服务器的系统日志和硬件日志中指示的每个内存槽位的有效数据,所述有效数据至少包括CE信息、内存电压与电流数据、温度数据、目标服务器序号和内存槽位编号,并以所述目标服务器序号和内存槽位编号作为所属内存槽位的关键字;提取所述CE信息、内存电压与电流数据,以及温度数据中的特征数据;基于所述特征数据判断内存是否存在硬件故障风险;若存在硬件故障风险,基于关键字标记指示存在硬件故障风险的特征数据对应的目标服务器和内存槽位,并生成故障预测结果。2.根据权利要求1所述的方法,其特征在于,还包括:发送所述故障预测结果至告警服务器,使所述告警服务器执行内存故障风险预警。3.根据权利要求1所述的方法,其特征在于,所述在预设周期内采集目标服务器的系统日志和硬件日志,包括:每隔3至5分钟基于message命令触发收集建立访问连接的目标服务器的系统日志,以及通过BMC端口获取建立访问连接的目标服务器的硬件日志。4.根据权利要求1至3中任一项所述的方法,其特征在于,提取所述CE信息、内存电压与电流数据、以及温度数据中的特征数据,包括:针对所述目标服务器中的每个内存槽位,根据所述内存电压与电流数据计算电压波动率与电流波动率;将所述电压波动率、所述电流波动率、所述CE信息和所述温度数据作为输入变量输入至预先建立的预测模型进行特征提取,得到分别对应电压波动率、所述电流波动率、所述CE信息和温度数据的特征数据。5.根据权利要求1至3中任一项所述的方法,其特征在于,基于所述特征数据判断内存是否存在硬件故障风险,包括:将预设周期内得到的对应每个内存槽位的特征数据与相应的正常值分布范围进行比较,并统计;若任一内存槽位存在预设个数的特征数据超过相应的正常值分布范围,确定所述内存槽位存在硬件故障风险,所述预设个数大于等于1。6.根据权利要求1至3中任一项所述的方法,其特征在于,基于所...
【专利技术属性】
技术研发人员:肖潇,刘谦,陈龙辉,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。