一种加固服务器的故障预测与健康管理系统技术方案

技术编号:38863437 阅读:35 留言:0更新日期:2023-09-17 10:04
本发明专利技术涉及一种加固服务器的故障预测与健康管理系统,属于计算机健康管理技术领域。本发明专利技术采用基于IPMI与系统内核分析的多源数据采集技术、基于故障模式树的定量故障诊断技术、基于系统多元特征的健康评估技术、基于数据驱动的故障预测技术等,对加固服务器软硬件系统的状态感知,监控设备运行状况,通过数据监控与分析,诊断并定位系统异常状态的故障类型,评估系统的运行健康度,预测故障的发生,实现系统的自主诊断与自主保障,大幅度提高系统运维效率,提高系统的安全性与可靠性。提高系统的安全性与可靠性。提高系统的安全性与可靠性。

【技术实现步骤摘要】
一种加固服务器的故障预测与健康管理系统


[0001]本专利技术属于计算机健康管理
,具体涉及一种加固服务器的故障预测与健康管理系统。

技术介绍

[0002]加固服务器作为综合数据计算与信息处理服务器,具有信息处理速度快、可靠性要求高等特点,广泛应用于指挥控制、信息保障等系统中。加固服务器是一个软硬件耦合的整体系统,对系统的稳定性要求十分严格,随着加固服务器系统功能、性能的不断提升,发生故障和功能失效的概率越来越大,故障类型也越来越多,如何有效降低加固服务器软硬件系统的故障率,是加固服务器软硬件系统迫切需要解决的重要问题。
[0003]目前,加固服务器的维修保障方式主要采用故障修复和定时维修两种方式,设备一旦出现故障,往往采取停机修复,所有的维修保障措施都是基于故障的被动补救措施;对于定期维修,不论设备实际工作状况好坏,按照既定的维修时间和维修策略,定期地进行日常维护以及小修、中修和大修,存在着维修时间长、维修成本高、针对性差等问题。
[0004]针对上述问题,借助故障预测与健康管理技术,可以自动识别加固服务器软硬件系统故障本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种加固服务器的故障预测与健康管理系统,其特征在于,该系统包括:数据采集模块、数据存储模块、故障模式树模块、实时监控模块、故障诊断模块、健康评估模块、故障预测模块和人机交互界面;所述数据采集模块,采集加固服务器系统多源数据,为系统其余模块提供数据来源,采集的数据分为系统带外信息与带内信息;所述数据存储模块,将采集的系统多源数据存储至数据库中,用于系统状态备份,为故障预测模块提供系统参数状态的历史数据;所述故障模式树模块,规定加固服务器软硬件系统的故障类型、故障类型相关参数与参数故障阈值,通过分析加固服务器典型故障信息构建故障模式树;所述实时监控模块,根据故障模式树中的参数状态阈值对系统各参数的实时状态进行实时监控,当参数状态越过阈值限制时,视为系统出现异常状况,实时监控模块向故障诊断模块传输异常参数类型,并激活故障诊断模块,实现故障自主诊断;所述故障诊断模块,对采集的系统异常参数状态数据进行分析,使用概率性判断和连续性判断组成的两部判断法诊断异常状态为瞬时异常告警还是故障发生;所述健康评估模块,以多元系统状态信息为数据依据,构建参数级、部件级、系统级的健康评估模型,反应系统当前的系统健康状态;参数级健康评估模型对单个参数的运行状态进行评价,基于参数状态与故障临界状态的偏差程度构建非线性评估函数;部件级健康评估模型对系统的各个部件健康度进行评估,通过聚合各部件所属的参数健康度,采用加权法构建各部件的健康评估函数;同样地,系统级健康评估模型通过聚合各部件健康度,采用加权法构建系统的健康评估函数;所述故障预测模块,依据系统参数状态的历史时序数据,采用数据驱动的时间序列预测模型进行参数未来状态的预测,并依据故障模式树对系统参数未来状态进行故障诊断,从而完成故障预测;所述故障预测模块采用ARIMA模型构建时间序列预测模型,采用在线更新模型的方式自动更新模型;所述人机交互界面,展示系统实时状态信息、故障与告警信息、健康度与故障预测结果相关信息,同时提供系统故障模式树的配置功能、系统历史状态查询功能。2.如权利要求1所述的加固服务器的故障预测与健康管理系统,其特征在于,数据采集模块、数据存储模块位于数据层,故障模式树模块、实时监控模块位于监控层,故障诊断模块、健康评估模块、故障预测模块位于应用层,人机交互界面位于交互层。3.如权利要求1所述的加固服务器的故障预测与健康管理系统,其特征在于,所述数据采集模块使用IPMI协议采集系统的带外信息,采集的数据至少包括系统供电信息、硬件温度信息;所述数据采集模块读取操作系统内核文件采集系统的带内信息,采集的数据至少包括CPU、内存、磁盘、网络部件的运行状况信息。4.如权利要求1所述的加固服务器的故障预测与健康管理系统,其特征在于,所述故障模式树按照故障发生的部件位置进行分类,部件级的故障分类包括CPU故障、内存故障、磁盘故障、网络故障与硬件故障,其中硬件故障为:系统元器件电压故障与寿命件故障。5.如权利要求4所述的加固服务器的故障预测与健康管理系统,其特征在于,故障模式树根据后续服务器部件与应用的增加或修改以及故障模式的更新对故障模式进行修改,包括参数阈值设置、故障模式的修改、增加或删除。
6.如权利要求1

5任一项所述的加固服务器的故障预测与健康管理系统,其特征在于,针对系统参数状态瞬时异常导致的故障虚警,采用概率性判断和连续性判断组成的两步判断法对系统异常参数状态数据进行诊断,只有当概率性判断和连续性判断结果均为故障时,才将该异常状态定位为参数故障发生,并依据故障模式树输出故障信息,反之仅输出告警信息;概率性判断用于判断故障是否发生,其原理是在规定时间内,参数处于异常状态的时间点占总时间的百分比是否超过概率性阈值;连续性判断用于判断参数异常状态是否持续发生,当异常状态持续发生时,判定故障发生,连续性判断是在概率性判断的基础上进行的,其原理是在规定时间内,参数异常状态的最大连续时间点占参数发生异常状态总时间的百分比是否超过连续性阈值。7.如权利要求6所述的加固服务器的故障预测与健康管理系统,其特征在于,所述故障诊断模块的工作流程包括:S21、根据实时监控模块反馈的异常参数及参数所属的故障模式,采集N个时间点的参数状态数据;S22、使用概率性判断,对采集的参数状态数据进行分析诊断,当概率性判断结果为否时,仅输出参数异常状态告警信息,当概率性判断结果为是时,触发连续性判断;S23、使用连续性判断,对采集的参数状态数据进行分析诊断,当连续性判断结果为否时,仅输出参数异常状态告警信息,当连续性判断结果为是时,判断参数异常状态为故障,输出异常参数所属的故障模式信息。8.如权利要求6所述的加固服务器的故...

【专利技术属性】
技术研发人员:程智鹏刘宗宝刘更郭申闵新宇甄志伟
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1