一种故障预测方法、服务器和计算机存储介质技术

技术编号:19067334 阅读:23 留言:0更新日期:2018-09-29 14:43
本发明专利技术实施例公开了一种故障预测方法、服务器和计算机存储介质。所述方法包括:基于故障的预设属性,对收集的第一故障日志进行聚合处理,以获取超故障集合;从所述超故障集合中提取出在预设的滑动时间窗口中出现频数大于第一预设阈值的故障序列作为频繁故障序列,以得到频繁故障序列集合;从所述频繁故障序列集合中选择出任意两个超故障之间的关联度均大于第二预设阈值的频繁故障序列作为关键序列,以得到关键序列集合;基于所述关键序列集合构建故障传播树;根据所述故障传播树以及获取的第二故障日志,进行故障预测。

【技术实现步骤摘要】
一种故障预测方法、服务器和计算机存储介质
本专利技术涉及计算机
,具体涉及一种故障预测方法、服务器和计算机存储介质。
技术介绍
传统的分布式系统出现故障时,运维人员往往需要花费一定的时间来排查出系统故障,进而解决问题,这些故障往往会导致系统服务不稳定甚至暂停。因此,对系统中可能发生的故障做出准确的预测,能够为运维人员预留出足够的故障反应时间,进而能够提前预防和处理问题,避免故障的蔓延,这对于提高系统服务的稳定性和运维工作效率都有着极大的意义。现如今,越来越多的软件系统采用分布式或者微服务的架构,不同节点上的不同组件模块相互协同工作,共同对外提供服务。在这些软件系统中,日志机制发挥着重要的作用,每个模块通过日志将系统中的动作和操作记录下来,其中包含着丰富的信息和数据。传统的运维方式往往通过系统运维人员查看日志文件的方式来分析整个系统的运行情况和服务情况。受限于人的时间和精力,这种方式则会造成日志中许多有用的信息被忽略,从而导致了日志中数据的大量浪费。在这样的背景下,当前在日志文件分析和数据挖掘方向的工作成为了研究热点,特别是对于大规模分布式系统下的故障预测的研究工作,具有巨大的实际应用价值。然而,目前在大规模分布式系统下的故障预测仍然缺乏一个比较成熟可靠的解决方案。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供了一种故障预测方法、服务器和计算机存储介质。为达到上述目的,本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种故障预测方法,所述方法包括:基于故障的预设属性,对收集的第一故障日志进行聚合处理,以获取超故障集合;从所述超故障集合中提取出在预设的滑动时间窗口中出现频数大于第一预设阈值的故障序列作为频繁故障序列,以得到频繁故障序列集合;从所述频繁故障序列集合中选择出任意两个超故障之间的关联度均大于第二预设阈值的频繁故障序列作为关键序列,以得到关键序列集合;基于所述关键序列集合构建故障传播树;根据所述故障传播树以及获取的第二故障日志,进行故障预测。上述方案中,可选地,所述基于故障的预设属性,对收集的故障日志进行聚合处理,以获取超故障集合,包括:获取收集的第一故障日志中故障的预设属性;将具有至少M个相同预设属性的故障合成一个超故障;其中,所述M为大于或等于1的正整数;将所述合成的至少一个超故障合成一个超故障集合。上述方案中,可选地,所述从所述超故障集合中提取出在预设的滑动时间窗口中出现频数大于第一预设阈值的故障序列作为频繁故障序列,以得到频繁故障序列集合,包括:基于所述超故障集合中故障的类型,确定滑动时间窗口的大小;基于确定出的滑动时间窗口大小,在所述超故障集合上进行滑动;确定出由位于当前滑动时间窗口内的各个超故障所能形成的多个故障序列;从所述多个故障序列中提取出现频数大于第一预设阈值的故障序列;将所述出现频数大于第一预设阈值的故障序列判定为频繁故障序列将所确定出的各个所述频繁故障序列形成频繁故障序列集。上述方案中,可选地,所述确定滑动时间窗口的大小,包括:确定作为滑动起点的超故障的故障类型;确定与所述故障类型对应的引发一条完整故障链所需的时间,以及第一预设阈值;根据所述引发一条完整故障链所需的时间,以及所述第一预设阈值,计算得到与所述故障类型相匹配的滑动时间窗口的大小。上述方案中,可选地,所述从所述频繁故障序列集合中提取出任意两个故障之间的关联度均大于第二预设阈值的频繁故障序列作为关键序列,包括:确定每个频繁故障序列中任意两个超故障之间的关联度;若确定所述频繁故障序列中任意两个超故障之间的关联度都大于第二预设阈值,则将所述频繁故障序列判定为关键序列。本专利技术实施例提供了一种服务器,所述服务器包括:聚合单元、提取单元、选择单元、构建单元和预测单元;其中,所述聚合单元,用于基于故障的预设属性,对收集的第一故障日志进行聚合处理,以获取超故障集合;所述提取单元,用于从所述超故障集合中提取出在预设的滑动时间窗口中出现频数大于第一预设阈值的故障序列作为频繁故障序列,以得到频繁故障序列集合滑动时间窗口;所述选择单元,用于从所述频繁故障序列集合中提取出任意两个超故障之间的关联度均大于第二预设阈值的频繁故障序列作为关键序列,以得到关键序列集合;所述构建单元,用于基于所述关键序列集合构建故障传播树;所述预测单元,用于根据获取的第二故障日志,以及所述故障传播树,进行故障预测。上述方案中,可选地,所述聚合单元,还用于:获取收集的第一故障日志中故障的预设属性;将具有至少M个相同预设属性特征的故障合成一个超故障;其中,所述M为大于或等于1的正整数;将所述合成的至少一个超故障合成一个超故障集合。上述方案中,可选地,所述提取单元,还用于:基于所述超故障集合中故障的类型,确定滑动时间窗口的大小;基于确定出的滑动时间窗口大小,在所述超故障集合上进行滑动;确定出由位于当前滑动时间窗口内的各个超故障所能形成的多个故障序列;从所述多个故障序列中提取出现频数大于第一预设阈值的故障序列;将所述出现频数大于第一预设阈值的故障序列判定为频繁故障序列;将所确定出的各个所述频繁故障序列形成频繁故障序列集。上述方案中,可选地,所述提取单元,还用于:确定作为滑动起点的超故障的故障类型;确定与所述故障类型对应的引发一条完整故障链所需的时间,以及第一预设阈值;根据所述引发一条完整故障链所需的时间,以及所述第一预设阈值,计算得到与所述故障类型相匹配的滑动时间窗口的大小。上述方案中,可选地,所述选择单元,还用于:确定每个频繁故障序列中任意两个超故障之间的关联度;若确定所述频繁故障序列中任意两个超故障之间的关联度都大于第二预设阈值,则将所述频繁故障序列判定为关键序列。本专利技术实施例还提供了一种计算机存储介质,其上存储有计算机指令,该指令被处理器执行时实现本专利技术实施例所述的故障预测方法的步骤。本专利技术实施例还提供了一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术实施例所述的故障预测方法的步骤。本专利技术实施例提供的故障预测方法、服务器和计算机存储介质,所述方法包括:基于故障的预设属性,对收集的第一故障日志进行聚合处理,以获取超故障集合;从所述超故障集合中提取出在预设的滑动时间窗口中出现频数大于第一预设阈值的故障序列作为频繁故障序列,以得到频繁故障序列集合;从所述频繁故障序列集合中选择出任意两个超故障之间的关联度均大于第二预设阈值的频繁故障序列作为关键序列,以得到关键序列集合;基于所述关键序列集合构建故障传播树;根据所述故障传播树以及获取的第二故障日志,进行故障预测。采用本专利技术实施例的技术方案,通过对收集的故障日志进行聚合处理,降低了将同一滑动时间窗口内的并行发生的不同故障被合并为同一故障的可能性,可以有效地将相似故障做归一化的处理;通过利用故障传播树中蕴含的预测规则对下一步将要发生的故障进行预测,能够有效地对系统故障做出预测。附图说明图1为本专利技术实施例的故障预测方法的流程示意图;图2为本专利技术实施例的基于滑动时间窗口的故障关联挖掘模型示意图;图3为本专利技术实施例的超故障序列示意图;图4为本专利技术实施例基于CCM对频繁故障序列进行分类的过程示意图;图5为根据关键序列构建故障传播树的示意图,其中,图本文档来自技高网...

【技术保护点】
1.一种故障预测方法,其特征在于,所述方法包括:基于故障的预设属性,对收集的第一故障日志进行聚合处理,以获取超故障集合;从所述超故障集合中提取出在预设的滑动时间窗口中出现频数大于第一预设阈值的故障序列作为频繁故障序列,以得到频繁故障序列集合;从所述频繁故障序列集合中选择出任意两个超故障之间的关联度均大于第二预设阈值的频繁故障序列作为关键序列,以得到关键序列集合;基于所述关键序列集合构建故障传播树;根据所述故障传播树以及获取的第二故障日志,进行故障预测。

【技术特征摘要】
1.一种故障预测方法,其特征在于,所述方法包括:基于故障的预设属性,对收集的第一故障日志进行聚合处理,以获取超故障集合;从所述超故障集合中提取出在预设的滑动时间窗口中出现频数大于第一预设阈值的故障序列作为频繁故障序列,以得到频繁故障序列集合;从所述频繁故障序列集合中选择出任意两个超故障之间的关联度均大于第二预设阈值的频繁故障序列作为关键序列,以得到关键序列集合;基于所述关键序列集合构建故障传播树;根据所述故障传播树以及获取的第二故障日志,进行故障预测。2.根据权利要求1所述的方法,其特征在于,所述基于故障的预设属性,对收集的故障日志进行聚合处理,以获取超故障集合,包括:获取收集的第一故障日志中故障的预设属性;将具有至少M个相同预设属性的故障合成一个超故障;其中,所述M为大于或等于1的正整数;将所述合成的至少一个超故障合成一个超故障集合。3.根据权利要求1所述的方法,其特征在于,所述从所述超故障集合中提取出在预设的滑动时间窗口中出现频数大于第一预设阈值的故障序列作为频繁故障序列,以得到频繁故障序列集合,包括:基于所述超故障集合中故障的类型,确定滑动时间窗口的大小;基于确定出的滑动时间窗口大小,在所述超故障集合上进行滑动;确定出由位于当前滑动时间窗口内的各个超故障所能形成的多个故障序列;从所述多个故障序列中提取出现频数大于第一预设阈值的故障序列;将所述出现频数大于第一预设阈值的故障序列判定为频繁故障序列将所确定出的各个所述频繁故障序列形成频繁故障序列集。4.根据权利要求3所述的方法,其特征在于,所述确定滑动时间窗口的大小,包括:确定作为滑动起点的超故障的故障类型;确定与所述故障类型对应的引发一条完整故障链所需的时间,以及第一预设阈值;根据所述引发一条完整故障链所需的时间,以及所述第一预设阈值,计算得到与所述故障类型相匹配的滑动时间窗口的大小。5.根据权利要求1所述的方法,其特征在于,所述从所述频繁故障序列集合中提取出任意两个故障之间的关联度均大于第二预设阈值的频繁故障序列作为关键序列,包括:确定每个频繁故障序列中任意两个超故障之间的关联度;若确定所述频繁故障序列中任意两个超故障之间的关联度都大于第二预设阈值,则将所述频繁故障序列判定为关键序列。6.一种服务器,其特征在于,所述服务器包括:聚合单元、提取单元、选择单元、构建单元和预测单元;其中,所...

【专利技术属性】
技术研发人员:蒲志明孙海
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1