服务器故障预警方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24995474 阅读:21 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种服务器故障预警方法、装置、计算机设备及存储介质,其中,该服务器故障预警方法包括:获取服务器故障预警请求,服务器故障预警请求包括定期任务和定时周期;通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将硬件监测数据添加到日志信息中;若系统当前时间满足定时周期,则获取定时周期对应的日志信息;获取机型预警等级或部件预警等级;若机型预警等级或部件预警等级达到预设报告等级,则提取周期故障原因;将故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。该方法及时采取维护或升级措施,降低批量机器共性问题产生的当前机型故障率或当前部件故障率。

【技术实现步骤摘要】
服务器故障预警方法、装置、计算机设备及存储介质
本专利技术涉及服务器运维
,尤其涉及一种服务器故障预警方法、装置、计算机设备及存储介质。
技术介绍
服务器硬件故障监控是服务器运维重要的一部分。服务器硬件故障轻则影响机器性能,发出错误信息,重则导致机器宕机,严重影响业务运转和可用性。各家服务器厂商都提供了硬件监控和硬件日志服务。BMC(BaseboardManagementController,基板管理控制器)实时对服务器的各个部件进行监控,当服务器出现出现硬件故障时,BMC将会监测到硬件故障部件,记录日志,并进行报警,通知用户。现有的服务器硬件故障监控可以监测到故障问题,在轻微故障的情况下,可以通过更换硬件或升级固件的方式修复硬件问题,避免因为硬件故障进一步恶化导致更严重的情况(例如宕机、数据丢失等)。在严重故障的情况下,也可以通过日志判断问题所在,从而解决问题。目前的BMC均为对单一服务器的监控。在一个IDC(InternetDataCenter,互联网数据中心)中心,可能存在着成千上万台服务器,同样的潜在故障缺陷可能出现在成千本文档来自技高网...

【技术保护点】
1.一种服务器故障预警方法,其特征在于,包括:/n获取服务器故障预警请求,所述服务器故障预警请求包括定期任务和定时周期,其中,所述定期任务包括读取服务器系统事件日志库的日志信息;/n通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将所述硬件监测数据添加到所述日志信息中;/n若系统当前时间满足所述定时周期,则激活所述定期任务,获取所述定时周期对应的所述日志信息;/n基于所述定时周期对应的所述日志信息,获取机型预警等级或部件预警等级;/n若所述机型预警等级或所述部件预警等级达到预设报告等级,则基于机型维护记录表,提取每一所述在线机型在所述定时周期内的周期故障原因;/n统计每一所述定时周...

【技术特征摘要】
1.一种服务器故障预警方法,其特征在于,包括:
获取服务器故障预警请求,所述服务器故障预警请求包括定期任务和定时周期,其中,所述定期任务包括读取服务器系统事件日志库的日志信息;
通过IPMI命令对服务器硬件状态进行监测,获取硬件监测数据,将所述硬件监测数据添加到所述日志信息中;
若系统当前时间满足所述定时周期,则激活所述定期任务,获取所述定时周期对应的所述日志信息;
基于所述定时周期对应的所述日志信息,获取机型预警等级或部件预警等级;
若所述机型预警等级或所述部件预警等级达到预设报告等级,则基于机型维护记录表,提取每一所述在线机型在所述定时周期内的周期故障原因;
统计每一所述定时周期故障原因对应的故障发生次数,按降序排列所有所述故障发生次数,形成故障原因排序表;
将所述故障原因排序表添加到预设周期故障分析模板中,形成周期故障分析报告。


2.如权利要求1所述的服务器故障预警方法,其特征在于,所述获取机型预警等级或部件预警等级,包括:
获取每一在线机型在所述定时周期内对应的在线机型数量、问题机型数量和问题部件数量;
基于所述在线机型数量、所述问题机型数量和所述问题部件数量,获取所述定时周期内的当前机型故障率和当前部件故障率;
基于所述定时周期对应的所述在线机型数量和所述当前机型故障率,获取机型预警等级,基于所述机型预警等级进行等级预警响应;
基于所述定时周期对应的所述在线机型数量和所述当前部件故障率,获取部件预警等级,基于所述部件预警等级进行等级预警响应。


3.如权利要求2所述的服务器故障预警方法,其特征在于,所述基于所述定时周期对应的所述在线机型数量和所述当前机型故障率,获取机型预警等级,基于所述机型预警等级进行等级预警响应,包括:
若所述定时周期内的所述在线机型数量大于预设对比数量,且所述当前机型故障率大于预设第一故障率,则获取一级机型预警,基于所述一级机型预警进行一级预警响应;
若所述定时周期内的所述在线机型数量不大于所述预设对比数量,且所述当前机型故障率大于所述预设第一故障率,则获取前期机型故障率;
若所述前期机型故障率大于所述预设第一故障率,则获取一级机型预警,基于所述一级机型预警进行一级预警响应;
若所述前期机型故障率不大于所述预设第一故障率,则获取二级机型预警,基于所述二级机型预警进行二级预警响应。


4.如权利要求2所述的服务器故障预警方法,其特征在于,所述基于所述定时周期对应的所述在线机型数量和所述当前部件故障率,获取部件预警等级,基于所述部件预警等级进行等级预警响应,包括:
若所述定时周期内的所述在线机型数量大于所述预设对比数量,且所述当前部件故障率大于预设第二故障率,则获取一级部件预警,基于所述一级部件预警进行一级预警响应;
若所述定时周期内的所述机型数量不大于所述预设对比数量,且所述当前部件故障率大于所述预设第二故障率,则获取前期部件故障率;
若所述前期部件故障率大于所述预设第二故障率,则获取一级部件预警,基于所述一级部件预警进行一级预警响应
若所述前期部件故障率未大于所述预设第二故障率,则获取二级部件预警,基于所述二级...

【专利技术属性】
技术研发人员:张建浓
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1