预测服务器健康状态的方法、计算设备和计算机介质技术

技术编号:28034623 阅读:13 留言:0更新日期:2021-04-09 23:16
本发明专利技术提供了一种预测服务器健康状态的方法、计算设备和计算机可读存储介质。该方法包括:获取多个服务器中的每个服务器在至少一个第一时间段内的服务性能元数据;基于每个服务器的服务性能元数据确定服务器在每个第一时间段内的多个性能特征;基于多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得线性回归模型的收敛参数;获取待预测服务器在第二时间段内的服务性能元数据;基于待预测服务器的服务性能元数据确定待预测服务器在第二时间段内的多个性能特征;基于待预测服务器在第二时间段内的多个性能特征和线性回归模型的收敛参数确定待预测服务器的预测异常值;以及确定待预测服务器的健康状态。

【技术实现步骤摘要】
预测服务器健康状态的方法、计算设备和计算机介质
本专利技术概括而言涉及机器学习领域,更具体地,涉及一种预测服务器健康状态的方法、计算设备和计算机可读存储介质。
技术介绍
当前,对于许多企业来说,随着业务量的增大,所需的服务器数量也不断增加。例如,对于诸如京东和淘宝之类的电商企业来说,每年都需要扩充数千甚至上万的服务器。在提供服务器托管的数据中心中,随着时间推移和业务拓展,也经常需要新采购并上架服务器。在这种多服务器的场景中,由于各个服务器的上架时间不同,配置规格不同,在长时间的运行过程中个别服务器不稳定运行的情况时有发生,一定程度上会影响业务稳定运行。当前,对于这种多服务器系统中的每个服务器的健康状态的预测通常是基于该服务器的单个性能指标进行的,缺乏多因素的统计分析结果,因此预测准确度不高。此外,通过检索系统故障日志的方式确定服务器健康状态虽然速度快,但是一旦检测出问题就往往是高危状态,难以提前采取应对措施。为此,需要一种在多服务器的系统中能够准确快速地预测工作中的每个服务器的健康状态的方法,使得系统运维人员能够主动对健康状态处于危险或高危的服务器采取适当措施以保障业务稳定运行。
技术实现思路
针对上述问题,本专利技术提供了一种预测服务器健康状态的方案,其中通过对大量服务器在给定时间段内的服务性能元数据进行整合以从中提取各个服务器的多个性能特征,并且利用这些服务器的性能特征对线性回归模型进行训练以利用训练好的线性回归模型对服务器的健康状态进行预测。根据本专利技术的一个方面,提供了一种预测服务器健康状态的方法。该方法包括:获取多个服务器中的每个服务器在至少一个第一时间段内的服务性能元数据,其中所述服务性能元数据包括所述服务器在每个第一时间段内的质保时间数据、处理器负载数据、内存数据、每秒磁盘IO数、处理器温度数据和风扇速度数据;基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征;基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数,所述收敛参数包括所述多个性能特征的各自的收敛权重和所述线性回归模型的收敛截距;获取待预测服务器在第二时间段内的服务性能元数据;基于所述待预测服务器的服务性能元数据确定所述待预测服务器在所述第二时间段内的多个性能特征;基于所述待预测服务器在所述第二时间段内的多个性能特征和所述线性回归模型的收敛参数确定所述待预测服务器的预测异常值;以及基于所述待预测服务器的预测异常值和至少一个异常阈值确定所述待预测服务器的健康状态。根据本专利技术的另一个方面,提供了一种计算设备。该计算设备包括:至少一个处理器;以及至少一个存储器,该至少一个存储器被耦合到该至少一个处理器并且存储用于由该至少一个处理器执行的指令,该指令当由该至少一个处理器执行时,使得该计算设备执行根据上述方法的步骤。根据本专利技术的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序代码,该计算机程序代码在被运行时执行如上所述的方法。在一些实施例中,所述多个性能特征包括所述服务器的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征,并且其中基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征包括:基于所述第一时间段内、所述服务器的最后一个质保剩余天数与所述服务器的质保总天数确定所述服务器的质保特征;基于所述第一时间段内、所述服务器的处理器负载值与处理器核心数之比大于或等于第一阈值的天数与所述第一时间段确定所述服务器的处理器负载特征;基于所述第一时间段内、所述服务器的内存使用率大于或等于第二阈值的天数与所述第一时间段确定所述服务器的内存使用率特征;基于所述第一时间段内、所述服务器的每秒磁盘IO数大于或等于第三阈值的天数与所述第一时间段确定所述服务器的磁盘IO特征;基于所述第一时间段内、所述服务器的处理器温度大于或等于处理器指导温度的天数与所述第一时间段确定所述服务器的处理器温度特征;以及基于所述第一时间段内、所述服务器的风扇速度大于或等于风扇指导速度的天数与所述第一时间段确定所述服务器的风扇特征。在一些实施例中,所述第二时间段的天数不等于所述第一时间段的天数。在一些实施例中,所述多个性能特征包括所述服务器的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征,并且其中基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征包括:基于所述第一时间段内、所述服务器的最后一个质保剩余天数确定所述服务器的质保特征;基于所述第一时间段内、所述服务器的处理器负载值与处理器核心数之比大于或等于第一阈值的天数确定所述服务器的处理器负载特征;基于所述第一时间段内、所述服务器的内存使用率大于或等于第二阈值的天数确定所述服务器的内存使用率特征;基于所述第一时间段内、所述服务器的每秒磁盘IO数大于或等于第三阈值的天数确定所述服务器的磁盘IO特征;基于所述第一时间段内、所述服务器的处理器温度大于或等于第四阈值的天数确定所述服务器的处理器温度特征;以及基于所述第一时间段内、所述服务器的风扇速度大于或等于第五阈值的天数确定所述服务器的风扇特征。在一些实施例中,所述第二时间段的天数等于所述第一时间段的天数。在一些实施例中,基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数包括:设置所述多个性能特征中的每个性能特征的权重参数、所述线性回归模型的截距参数和所述线性回归模型的学习步长;基于每个服务器的多个性能特征和相应的权重参数以及所述线性回归模型的截距参数确定所述服务器的健康状态的预测异常值;计算所述预测异常值和所述服务器的真实异常值之间的最大似然估计值作为所述线性回归模型的损失函数;确定所述损失函数相对于所述服务器的每个性能特征的权重参数的第一偏导数和相对于所述线性回归模型的截距参数的第二偏导数;基于所述第一偏导数、所述第二偏导数和所述学习步长更新所述服务器的每个性能特征的权重参数和所述线性回归模型的截距参数;确定所述权重参数的更新值是否小于预定值;以及如果所述更新值小于所述预定值,确定所述服务器的每个性能特征的权重参数作为所述收敛权重并且确定更新后的截距参数作为所述收敛截距。在一些实施例中,基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数还包括:基于每个服务器的多个性能特征确定所述服务器的真实异常值;以及基于每个服务器的多个性能特征和所述服务器的真实异常值对所述线性回归模型进行训练以获得所述线性回归模型的收敛参数。在一些实施例中,所述服务性能元数据还包括所述服务器在每个第一时间段内的故障数据,所述故障数据包括主板报错故障、内存损坏故障、磁盘损坏故障和宕机故障中的至少一种;其中确定所述服务器的真实异常值包括:基于所述服务器在每个第一时间段内存在故障数据的天数与所述第一时间段的比值确定所述服务器的真实异常值。在一些实施例中,所本文档来自技高网...

【技术保护点】
1.一种预测服务器健康状态的方法,包括:/n获取多个服务器中的每个服务器在至少一个第一时间段内的服务性能元数据,其中所述服务性能元数据包括所述服务器在每个第一时间段内的质保时间数据、处理器负载数据、内存数据、每秒磁盘IO数、处理器温度数据和风扇速度数据;/n基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征;/n基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数,所述收敛参数包括所述多个性能特征的各自的收敛权重和所述线性回归模型的收敛截距;/n获取待预测服务器在第二时间段内的服务性能元数据;/n基于所述待预测服务器的服务性能元数据确定所述待预测服务器在所述第二时间段内的多个性能特征;/n基于所述待预测服务器在所述第二时间段内的多个性能特征和所述线性回归模型的收敛参数确定所述待预测服务器的预测异常值;以及/n基于所述待预测服务器的预测异常值和至少一个异常阈值确定所述待预测服务器的健康状态。/n

【技术特征摘要】
1.一种预测服务器健康状态的方法,包括:
获取多个服务器中的每个服务器在至少一个第一时间段内的服务性能元数据,其中所述服务性能元数据包括所述服务器在每个第一时间段内的质保时间数据、处理器负载数据、内存数据、每秒磁盘IO数、处理器温度数据和风扇速度数据;
基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征;
基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数,所述收敛参数包括所述多个性能特征的各自的收敛权重和所述线性回归模型的收敛截距;
获取待预测服务器在第二时间段内的服务性能元数据;
基于所述待预测服务器的服务性能元数据确定所述待预测服务器在所述第二时间段内的多个性能特征;
基于所述待预测服务器在所述第二时间段内的多个性能特征和所述线性回归模型的收敛参数确定所述待预测服务器的预测异常值;以及
基于所述待预测服务器的预测异常值和至少一个异常阈值确定所述待预测服务器的健康状态。


2.如权利要求1所述的方法,其中所述多个性能特征包括所述服务器的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征,并且其中基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征包括:
基于所述第一时间段内、所述服务器的最后一个质保剩余天数与所述服务器的质保总天数确定所述服务器的质保特征;
基于所述第一时间段内、所述服务器的处理器负载值与处理器核心数之比大于或等于第一阈值的天数与所述第一时间段确定所述服务器的处理器负载特征;
基于所述第一时间段内、所述服务器的内存使用率大于或等于第二阈值的天数与所述第一时间段确定所述服务器的内存使用率特征;
基于所述第一时间段内、所述服务器的每秒磁盘IO数大于或等于第三阈值的天数与所述第一时间段确定所述服务器的磁盘IO特征;
基于所述第一时间段内、所述服务器的处理器温度大于或等于处理器指导温度的天数与所述第一时间段确定所述服务器的处理器温度特征;以及
基于所述第一时间段内、所述服务器的风扇速度大于或等于风扇指导速度的天数与所述第一时间段确定所述服务器的风扇特征。


3.如权利要求2所述的方法,其中所述第二时间段的天数不等于所述第一时间段的天数。


4.如权利要求1所述的方法,其中所述多个性能特征包括所述服务器的质保特征、处理器负载特征、内存使用率特征、磁盘IO特征、处理器温度特征以及风扇特征,并且其中基于每个服务器的服务性能元数据确定所述服务器在每个第一时间段内的多个性能特征包括:
基于所述第一时间段内、所述服务器的最后一个质保剩余天数确定所述服务器的质保特征;
基于所述第一时间段内、所述服务器的处理器负载值与处理器核心数之比大于或等于第一阈值的天数确定所述服务器的处理器负载特征;
基于所述第一时间段内、所述服务器的内存使用率大于或等于第二阈值的天数确定所述服务器的内存使用率特征;
基于所述第一时间段内、所述服务器的每秒磁盘IO数大于或等于第三阈值的天数确定所述服务器的磁盘IO特征;
基于所述第一时间段内、所述服务器的处理器温度大于或等于第四阈值的天数确定所述服务器的处理器温度特征;以及
基于所述第一时间段内、所述服务器的风扇速度大于或等于第五阈值的天数确定所述服务器的风扇特征。


5.如权利要求4所述的方法,其中所述第二时间段的天数等于所述第一时间段的天数。


6.如权利要求1所述的方法,其中基于所述多个服务器中的每个服务器的多个性能特征对线性回归模型进行训练以获得所述线性回归模型的收敛参数包括:
设置所述多个性能特征中的每个性能特征的权重参数、所述线性回归模型的截距参数和所述线性回归模型的学习步长;
基于每个服务器的多个...

【专利技术属性】
技术研发人员:张杰徐仲夏
申请(专利权)人:中智关爱通南京信息科技有限公司中智关爱通上海科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1