一种批量服务器部件故障自动计算并预警的方法技术

技术编号:12886025 阅读:70 留言:0更新日期:2016-02-17 17:06
本发明专利技术公开一种批量服务器部件故障自动计算并预警的方法,涉及计算机设备故障监控领域,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,便于大量服务器设备的整体运维监控和管理。

【技术实现步骤摘要】
【专利说明】
本专利技术涉及计算机设备故障监控领域,具体的说是。
技术介绍
随着市场对IT基础服务设施的需求不断增加,大量服务器部署使用,对于使用用户来说,如何整体监控设备运行情况,对需要关注的设备问题进行及时处理,非异常的信息进行低等级处理,对可能产生的批量故障进行提前预处理,这些工作如何能高效的自动完成同时减少运维的压力,是目前急需解决的问题。
技术实现思路
本专利技术针对目前需求以及现有技术发展的不足之处,提供。本专利技术所述,解决上述技术问题采用的技术方案如下:所述批量服务器部件故障自动计算并预警的方法,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理。优选的,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息是指,实时收集服务器中关键部件CPU、内存、硬盘、RAID卡的运行状态;通过cpu的寄存器状态位显示其目前cpu工作状态,通过内存的ECC芯片纠正并反馈目前内存运行的稳定状态,通过smart信息反馈硬盘运行情况,通过日志的一些错误记录实时反馈raid卡运行状态。优选的,所述监控服务器对通知级别和警告级别的信息分别记录处理,以两种产生的异常记录分别做分子,服务器设备保有量做分母,计算出关键部件异常的比例,当通知级别和报警级别故障比例超过预定阀值时,触发报警邮件,通知相关技术人员进行分析判断是否存在批量故障。本专利技术所述与现有技术相比具有的有益效果是:本专利技术通过对批量运行的服务器设备进行自动状态记录和回馈统计,可以实时查看服务器中关键部件的运行状态,对部件的报错信息进行过滤筛选,并划分关注和警告两个不同的故障紧急等级,设置相应的通知阀值及警告阀值,实时统计是否达到预定阀值,并对需要预警情况及时发出预警信息,通知相关技术人员进行分析判断是否存在批量故障,避免后续批量问题集中爆发,便于大量服务器设备的整体运维监控和管理。【附图说明】附图1为所述批量服务器部件故障自动计算并预警的方法的流程图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术所述进一步详细说明。本专利技术提供,通过对批量运行的服务器设备进行自动状态记录和回馈统计,可以实时查看服务器中关键部件的运行状态,对服务器中关键部件的报错信息进行过滤筛选,并划分通知和警告两个不同的故障紧急等级,所有机器的这些信息都会汇总到综合分析的设备记录,系统会对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,通知相关技术人员进行分析判断是否存在批量故障,避免后续批量问题集中爆发,便于大量服务器设备的整体运维监控和管理。实施例: 本实施例所述,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,避免后续批量问题集中爆发。附图1为本实施例所述批量服务器部件故障自动计算并预警的方法的流程图,如附图1所示,服务器启动后,自动执行信息采集脚本,对服务器关键部件进行信息采集,并反馈给监控服务器;然后监控服务器进行数据对比,设定通知和警告阀值,并判断是否有警告信息反馈,若有则安排单点保修;并判断故障率是否超通知或警告阀值,若超过则安排批量异常保修;同时继续对服务器设备进行监控。本实施例所述批量服务器部件故障自动计算并预警的方法,所述服务器关键部件包括CPU、内存、硬盘和RAID卡,相应的,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,是指,通过cpu的寄存器状态位显示其目前cpu工作状态,通过内存的ECC芯片可以纠正并反馈目前内存运行的稳定状态,从而判断内存稳定性,硬盘可以通过smart信息反馈其运行情况,raid卡可以通过日志,其中的一些错误记录可以实时反馈raid卡运行状态。通过使用指定的Linux系统下信息采集脚本(jiankong.sh脚本、crontab程序)完成CPU、内存、硬盘及RAID卡运行状态的搜集,可以每间隔一分钟时间自动收集一次。其中,jiankong.sh脚本:#!/bin/bash#get cpu informat1n;cd /usr/local/bin ? /i2c_test -b 4 _s 0x68 _m I _rc 16 _d 0x0 > cpu.1nfo---搜集 cpu 寄存器值#get mem informat1n;/usr/bin/ipmitool sdr > /linux/mem.1nfomem = /usr/bin/ipmitool sdr grep correctable I' ^---可纠正的内存报错计数 mem I = /usr/bin/ipmitool sdr | grep uncorrectablel,"——不可纟lI正内存报错计数#get hardisk informat1n disk = 〃’smartctl -A /dev/sdh | grep Current_Pending_Sector ’〃一搜集硬盘坏道值;#get raid card informat1narcconf sa当前第1页1 2 本文档来自技高网...

【技术保护点】
一种批量服务器部件故障自动计算并预警的方法,其特征在于, 通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:任华进
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1