一种计算机故障判断方法、系统、电子设备及存储介质技术方案

技术编号:37967534 阅读:22 留言:0更新日期:2023-06-30 09:42
本发明专利技术提供一种计算机故障判断方法、系统、电子设备及存储介质,故障判断方法包括:读取告警记录,并获取所述告警记录所在时刻的后一段时间段的所有数据,构成待处理数据集合;对所述待处理数据集合中的所有数据进行概率性判断和连续性判断;当概率性判断结果和连续性判断结果均为故障时,所述告警记录所在时刻的故障模式为故障。本发明专利技术提出基于阈值的概率性判断和连续性判断两步判断,并且同时判断为故障才认为是故障,算法简单高效,容易理解及分析数据的逻辑清晰,并且准确率高,对设备性能要求低;减少故障的误报,节约拆解服务器的成本。成本。成本。

【技术实现步骤摘要】
一种计算机故障判断方法、系统、电子设备及存储介质


[0001]本专利技术涉及故障诊断领域,更具体地,涉及一种计算机故障判断方法、系统、电子设备及存储介质。

技术介绍

[0002]当下计算机设备在生活、学习、工作中的广泛普及,这些设备在长时间中,到达一定的使用时间时会出现故障,服务器或者超级计算机属于计算机设备的一种,对于特殊工作的服务器,对服务器出现故障时对真实的故障判断要求很高,由于服务器的特殊性,不能在服务器告警后就直接认为服务器就出现了故障,直接拆卸服务器的某些零部件,查询故障,这样做很浪费资源,而且很多是伪故障,拆卸服务器后,并没有查询到故障的原因,多次拆装设备降低了设备的可靠性。
[0003]目前,计算机故障判断方法很多是基于机器学习或者深度学习等复杂的算法,由于使用这些复杂的算法对于数据的质量要求很高,需要大量的数据,而且对设备的性能要求高,有些还需要高性能GPU。对于数据量少,质量不高的数据,设备性能不高,且在只知道故障的故障项基于阈值的一些简单的逻辑关系,就无法使用复杂的算法做出故障判断。

技术实现思路

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机故障判断方法,其特征在于,包括:读取告警记录,并获取所述告警记录所在时刻的后一段时间段的所有数据,构成待处理数据集合;对所述待处理数据集合中的所有数据进行概率性判断和连续性判断;当概率性判断结果和连续性判断结果均为故障时,所述告警记录所在时刻的故障模式为故障。2.根据权利要求1所述的计算机故障判断方法,其特征在于,所述读取告警记录,并获取所述告警记录所在时刻的后一段时间段的所有数据,构成待处理数据集合,包括:读取告警记录,得到告警的故障名称;根据所述故障名称,查询故障配置表,得到故障名称对应的故障项、故障项所在的数据库表、故障判断关系、故障项阈值F_th、概率性阈值Pro_th、连续性阈值Con_th、概率性回滚条数G_num

和连续性回滚条目G_num”;根据故障项所在的数据库表、故障项及G_num

和连续性回滚条目G_num”,从采集到的数据库中提取待处理数据,得到概率性回滚数据集合Data_G_num和连续性回滚数据集合Data_C_num。3.根据权利要求2所述的计算机故障判断方法,其特征在于,所述对所述待处理数据集合中的所有数据进行概率性判断和连续性判断,包括:计算所述概率性回滚数据集合中满足故障判断条件的概率性回滚数据在所述概率性回滚数据集合中的数量占比,如果数量占比达到第一设定阈值,则所述概率性判断结果为故障;计算所述连续性回滚数据集合中满足故障判断条件的连续性回滚数据在所述连续性回滚数据集合中的数量占比,如果数量占比达到第二设定阈值,则所述连续性判断结果为故障。4.根据权利要求3所述的计算机故障判断方法,其特征在于,通过如下方式进行概率性回滚数据的概率性判断:根据故障项及故障判断关系,将单条概率性回滚数据与故障项阈值进行比较,若大于故障项阈值,则判定所述单条概率性回滚数据为故障,否则,所述单条概率性回滚数据为告警,并将故障计数加1,;遍历所述概率性回滚数据集合中的每一条概率性回滚数据,获取故障计数F_count

。5.根据权利要求4所述的计算机故障判断方法,其特征在于,计算所述概率性回滚数据集合中满足故障判断条件的概率性回滚数据在所述概率性回滚数据集合中的数量占比,如果数量占比达到第一设定阈值,则所述概率性判断结果为故障,包...

【专利技术属性】
技术研发人员:陈卓万永清
申请(专利权)人:苏州庖丁物联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1