一种基于BMC的高性能服务器故障分析预测方法技术

技术编号:20176496 阅读:48 留言:0更新日期:2019-01-23 00:19
本发明专利技术公开一种基于BMC的高性能服务器故障分析预测方法,涉及数据处理分析领域;BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。

A High Performance Server Fault Analysis and Prediction Method Based on BMC

The invention discloses a fault analysis and prediction method for a high performance server based on BMC, which relates to the field of data processing and analysis; BMC autonomous intelligent learning module collects performance and resource data of high performance server through performance acquisition module and resource data acquisition module respectively, and collects system operation status information through system management module to acquire performance. After screening the resource data and system operation status information, we learn from the historical data in the knowledge module, analyze and predict the development trend and occurrence probability of faults. According to the results of fault analysis and prediction, we send the control and configuration management commands of setting alarm threshold and alarm strategy to the BMC console, and then transmit the alarm threshold and alarm strategy to the alarm acquisition module. According to the real-time situation and the system control commands issued by the system management module, the alarm strategy is issued under the warning acquisition module.

【技术实现步骤摘要】
一种基于BMC的高性能服务器故障分析预测方法
本专利技术公开一种故障分析预测方法,涉及数据处理分析领域,具体地说是一种基于BMC的高性能服务器故障分析预测方法。
技术介绍
高性能计算(HighPerfermanceComputing)服务器,简称HPC服务器。这类机群主要解决大规模科学问题的计算和海量数据的处理,在科学研究、气象预报、计算模拟、军事研究、CFD/CAE、生物制药、基因测序、图像处理等方面广泛应用。从服务器长时间高效运行的应用环境看,高性能服务器计算负载量较大,对高效散热、芯片电压和温度的稳定性以及处理器运行状态的稳定性等提出了更高的要求。本专利技术提供一种基于BMC的高性能服务器故障分析预测方法,基于高性能服务器基板控制器BMC,通过对整机温度、电压等状态信息、风扇转速、电源运行状态、系统配置信息采集,对异常信息进行告警处理,并实时在BMC控制台上显示,实现故障的自动检测及告警。
技术实现思路
本专利技术针对现有技术存在的不足和问题,提供一种基于BMC的高性能服务器故障分析预测方法,解决了高性能服务器无法提前预测故障的问题,为高性能服务器提供了一种高效维护管理的技术途径,本文档来自技高网...

【技术保护点】
1.一种基于BMC的高性能服务器故障分析预测系统,其特征是包括BMC控制台、BMC自主智能学习模块、性能采集模块、资源数据采集模块、警告采集模块、系统管理功能模块、知识模块,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理...

【技术特征摘要】
1.一种基于BMC的高性能服务器故障分析预测系统,其特征是包括BMC控制台、BMC自主智能学习模块、性能采集模块、资源数据采集模块、警告采集模块、系统管理功能模块、知识模块,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下发设置告警阈值和告警策略的控制和配置管理命令,再将告警阈值和告警策略转发给警告采集模块,根据实时情况和系统管理功能模块下发的系统控制命令,警告采集模块下发告警策略。2.根据权利要求1所述的系统,其特征是所述知识模块包括数据库知识模块、操作系统知识模块和业务应用知识模块,数据库知识模块、操作系统知识模块和业务应用知识模块分别存储相应的数据信息。3.一种基于BMC的高性能服务器故障分析预测方法,其特征是利用权利要求1或2所述的系统进行高性能服务器故障分析预测,其中BMC自主智能学习模块针对高性能服务器的性能和资源数据分别通过性能采集模块及资源数据采集模块进行采集,通过系统管理功能模块进行系统运行状态信息的采集,对获取的性能和资源数据以及系统运行状态信息进行筛选,再通过对知识模块中的历史数据进行学习,分析预测故障的发展趋势和发生概率,根据故障分析预测结果,向BMC控制台下...

【专利技术属性】
技术研发人员:于治楼李保来王万强宋宇
申请(专利权)人:山东超越数控电子股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1