一种服务器故障预测方法、系统、设备及介质技术方案

技术编号:35189518 阅读:20 留言:0更新日期:2022-10-12 18:05
本发明专利技术提出一种服务器故障预测方法,包括:获取服务器各个部件的运行数据及日志数据;对运行数据和日志数据进行解析得到各个部件的状态数据;基于各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率;基于各个部件对服务器的影响概率计算服务器的故障概率,并将故障概率与预设的阈值进行比较,响应于故障概率高于阈值则发出关于服务器的故障预警。通过本发明专利技术提出的一种服务器故障预测方法,基于多个部件的影响概率预测服务器的运行状态,并在预测结果为故障时通知运维人员及时处理对应的异常部件并及时更换部件,从而有效解决因部分部件的长时间使用易发的异常导致服务器宕机的风险。常导致服务器宕机的风险。常导致服务器宕机的风险。

【技术实现步骤摘要】
一种服务器故障预测方法、系统、设备及介质


[0001]本专利技术属于计算机领域,具体涉及一种服务器故障预测方法、系统、设备及可读存储介质。

技术介绍

[0002]随着网络业务的迅速发展,服务器数量也逐年增多。随着时间的推移,逐步累积了大批量使用年份时间较长的服务器,服务器运营面临日益凸显的老龄化问题。理论上使用年份时间越长,服务器发生故障的几率也就越大。服务器一旦发生故障将会对网络业务造成巨大影响。
[0003]对于服务器故障的发生实际上是一个概率累加的过程,在服务器真正发生故障之前,服务器内部各个部件就已经出现了问题,因此,可以通过对服务器内部各个部件进行监控和分析,就可以提前预防服务器故障的发生。
[0004]而服务器故障预测对于实际生产环境具有非常重要的意义,通过服务器故障预测可以提前发现故障机器,降低因服务器因故障突然宕机或性能下降造成的风险和损失。
[0005]目前针对服务器领域对服务器故障诊断相关工具和方法较多,而服务器故障预测相关工具和方法较少。
[0006]因此,亟需一种有效的服务器状态预测的方案来解决上述问题。

技术实现思路

[0007]为解决上述问题,本专利技术提出一种服务器故障预测方法,包括:
[0008]获取服务器各个部件的运行数据及日志数据;
[0009]对所述运行数据和日志数据进行解析得到各个部件的状态数据;
[0010]基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率;
[0011]基于各个部件对服务器的影响概率计算服务器的故障概率,并将所述故障概率与预设的阈值进行比较,响应于所述故障概率高于所述阈值则发出关于所述服务器的故障预警。
[0012]在本专利技术的一些实施方式中,基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率包括:
[0013]获取服务器故障时各个部件的状态数据,按照独立性权重法计算各个部件对服务器故障的影响权重。
[0014]在本专利技术的一些实施方式中,基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率还包括:
[0015]获取服务器故障时各个部件的状态数据,根据所述各个部件的状态数据通过独立性权重法确定各部件之间的关联关系;
[0016]根据所述关联关系计算所述各个部件的对应的其他部件的影响系数。
[0017]在本专利技术的一些实施方式中,方法还包括:
[0018]响应于各个部件之间存在关联关系,将具备关联关系的部件中影响权重最高的部件的影响权重共享给具备关联关系的其他部件。
[0019]在本专利技术的一些实施方式中,基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率还包括:
[0020]获取各个部件的状态数据,通过所述状态数据确定各个部件发生故障的次数和发生故障的时间;
[0021]并基于所述发送故障的次数和发生故障的时间确定各个部件发生故障的频率和趋势,并将所述频率和趋势作为所述预设规则的一个因素计算各个部件对服务器的影响概率。
[0022]在本专利技术的一些实施方式中,基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率还包括:
[0023]根据不同的服务器上各个部件的状态数据,通过回归模型对预设的规则进行回归训练确定不同的服务器对应的系数。
[0024]在本专利技术的一些实施方式中,获取服务器各个部件的运行数据及日志数据包括:
[0025]通过BMC收集服务器中各个部件的运行状态数据和事件日志信息。
[0026]本专利技术的另一方面还提出一种服务器故障预测系统,包括:
[0027]服务器数据收集模块,服务器数据收集模块配置用于获取服务器各个部件的运行数据及日志数据;
[0028]服务器数据解析模块,所述服务器数据解析模块配置用于对所述运行数据和日志数据进行解析得到各个部件的状态数据;
[0029]服务器数据分析模块,所服务器数据分析模块配置用于基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率;
[0030]服务器故障预测模块,所述服务器故障模块配置用于基于各个部件对服务器的影响概率计算服务器的故障概率,并将所述故障概率与预设的阈值进行比较,响应于所述故障概率高于所述阈值则发出关于所述服务器的故障预警。
[0031]本专利技术的又一方面还提出一种计算机设备,包括:
[0032]至少一个处理器;以及
[0033]存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现上述实施方式中任意一项所述方法的步骤。
[0034]本专利技术的再一方面还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时上述实施方式中任意一项所述方法的步骤。
[0035]通过本专利技术提出的一种服务器故障预测方法,从多种维度获取服务器上各个部件的运行状态数据,并根据运行状态数据计算各个部件对服务器的影响概率,基于多个部件的影响概率预测服务器的运行状态,并在预测结果为故障时通知运维人员及时处理对应的异常部件。通过及时更换部件可有效解决因部分部件的长时间使用易发的异常导致服务器宕机的风险。
附图说明
[0036]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为本专利技术实施例提出的一种服务器故障预测方法的方法流程图;
[0038]图2为本专利技术实施例提出的一种服务器故障预测系统的结构示意图;
[0039]图3为本专利技术实施例提出的一种计算机设备的结构示意图;
[0040]图4为本专利技术实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
[0041]为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。
[0042]如图1所示,为解决上述问题,本专利技术提出一种服务器故障预测方法,包括:
[0043]步骤S1、获取服务器各个部件的运行数据及日志数据;
[0044]步骤S2、对所述运行数据和日志数据进行解析得到各个部件的状态数据;
[0045]步骤S3、基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率;
[0046]步骤S4、基于各个部件对服务器的影响概率计算服务器的故障概率,并将所述故障概率与预设的阈值进行比较,响应于所述故障概率高于所述阈值则发出关于所述服务器的故障预警。
[0047]在本专利技术的实施例中,在步骤S1中,各个部件是指服务器上CPU、内存、硬盘、RAID卡、网卡、主板、电源等设备,运行数据包括各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务器故障预测方法,其特征在于,包括:获取服务器各个部件的运行数据及日志数据;对所述运行数据和日志数据进行解析得到各个部件的状态数据;基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率;基于各个部件对服务器的影响概率计算服务器的故障概率,并将所述故障概率与预设的阈值进行比较,响应于所述故障概率高于所述阈值则发出关于所述服务器的故障预警。2.根据权利要求1所述的方法,其特征在于,所述基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率包括:获取服务器故障时各个部件的状态数据,按照独立性权重法计算各个部件对服务器故障的影响权重。3.根据权利要求1所述的方法,其特征在于,所述基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率还包括:获取服务器故障时各个部件的状态数据,根据所述各个部件的状态数据通过独立性权重法确定各部件之间的关联关系;根据所述关联关系计算所述各个部件的对应的其他部件的影响系数。4.根据权利要求3所述的方法,其特征在于,还包括:响应于各个部件之间存在关联关系,将具备关联关系的部件中影响权重最高的部件的影响权重共享给具备关联关系的其他部件。5.根据权利要求1所述的方法,其特征在于,所述述基于所述各个部件的状态数据按照预设的规则计算各个部件对服务器的影响概率还包括:获取各个部件的状态数据,通过所述状态数据确定各个部件发生故障的次数和发生故障的时间;并基于所述发送故障的次数和发生故障的时间确定各个部件发生故障的频率和趋势,并将所述频率和趋势作为所述预设规则的一个因素计算各个部件对...

【专利技术属性】
技术研发人员:王宝山
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1