故障跟因分析方法及装置、存储介质和电子设备制造方法及图纸

技术编号:31501913 阅读:8 留言:0更新日期:2021-12-22 23:20
本公开提供了一种故障跟因分析方法及装置、存储介质和电子设备。该方法包括:获取待分析组件集中对应的多个待分析指标的原始时序信息;基于多个待分析指标的原始时序信息确定指标序列模式特征;获取待分析组件集中的每个组件在第一预设时间范围内的告警日志;确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;根据每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;根据每个告警日志对应的告警类型标识特征和指标序列模式特征,确定待分析组件集中组件间的故障跟因关联关系。应用本公开实施例提供的方案能够快速准确地确定组件间的故障根因关联关系。关联关系。关联关系。

【技术实现步骤摘要】
故障跟因分析方法及装置、存储介质和电子设备


[0001]本公开涉及通信和计算机
,具体而言,涉及一种故障跟因分析方法及装置、计算机可读存储介质和电子设备。

技术介绍

[0002]随着数字化转型的不断推进,各种系统的数据指标和调用关系变得越来越复杂,一个系统往往由大量的服务器等组件构成,一旦发生故障可能会带来巨大的损失,这给智能运维提出了极高的要求。对于系统发生的故障和告警,除了需要迅速检测出异常之外,还需要快速、准确、有效地分析出异常的跟因,即进行故障跟因分析,从而才能有效避免以后再次发生类似的故障,减少故障带来的损失。于是,智能跟因分析成为智能运维中必不可少的关键一环。
[0003]跟因分析的核心和目的是快速进行故障跟因的定位,相关技术进行故障跟因分析的方法主要包括:基于规则引擎和专家系统的跟因分析、基于推理树的跟因分析以及基于知识图谱的跟因分析。
[0004]基于规则引擎和专家系统的跟因分析通常适用于系统早期的运维,需要大量人工指定的专家系统规则进行总结和推导,例如采用Drools规则引擎实现,通过不断地丰富和完善推导规则,使系统具备跟因分析能力。基于规则引擎和专家系统的跟因分析需要引入专家和先验知识,而且所指定规则不好扩展,灵活性较低,对于复杂多变的运维环境,往往到了一定时间后规则覆盖率会显著减低,需要不断地进行人工更新知识库和规则库,成本较大。
[0005]基于推理树的跟因分析将问题排障过程的经验提炼成二叉决策树,将告警信息按照时间分片算法进行分类分组,最后将分组的告警信息输出给决策树进行推理输出推理结果。基于推理树的跟因分析需要根据人工故障定位判断逻辑,构建推理树,理清告警之间的关联关系,这个工作量是相对较大的。
[0006]基于知识图谱的跟因分析是利用系统收集信息,生成该异常事件的知识图谱,往往结合知识图谱的相关算法模型来做,首先以事件为起点,关联查询本次异常事件相关的指标信息,通过获取到异常时间点的业务流水信息,连带查询出对应业务流水号可以关联出来的业务流水日志和实时树日志,获取当时存在的证据,然后将所有数据写入图数据库,生成知识图谱,跟因定位阶段是在异常事件知识图谱的基础上,应用推导模型将异常跟因从知识图谱中提取出来。但是,基于知识图谱的跟因分析往往需要采集足够丰富的信息去构建知识图谱,对于数据断层的情况对分析结果的影响较大,另外如果涉及到图模型等技术,构建图网络复杂度随着网络节点的增加,训练过程也更耗时,这对于工业运维诊断时间和效率加大了挑战。
[0007]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解。

技术实现思路

[0008]本公开实施例提供一种故障跟因分析方法及装置、计算机可读存储介质、电子设备,可以快速准确地确定组件间的故障跟因关联关系。
[0009]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0010]本公开实施例提供一种故障跟因分析方法,所述方法包括:获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标;基于所述多个待分析指标的原始时序信息确定指标序列模式特征;获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志;确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。
[0011]本公开实施例提供一种故障跟因分析装置,所述装置包括:原始时序信息获取单元,用于获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标;指标序列模式特征确定单元,用于基于所述多个待分析指标的原始时序信息确定指标序列模式特征;告警日志获取单元,用于获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志;告警日志文本特征确定单元,用于确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;告警类型标识特征确定单元,用于根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;故障跟因关联关系确定单元,用于根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。
[0012]本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的故障跟因分析方法。
[0013]本公开实施例提供了一种电子设备,包括:至少一个处理器;存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述实施例中所述的故障跟因分析方法。
[0014]根据本公开的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
[0015]在本公开的一些实施例所提供的技术方案中,通过获取待分析组件集对应的多个待分析指标的原始时序信息,可以确定指标序列模式特征;且获取待分析组件集中的每个组件在第一预设时间范围内的告警日志来确定对应的告警日志文本特征,适应动态运维变化的需求;然后,根据每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征,一方面,巧妙地构建了与跟因分析密切相关的两部分重要特征(即指标序列模式特征和告警类型标识特征),另一方面,又确保了这两部分重要特征之间基本上没有依赖性和关联性,很好地满足了特征独立性假设条件,从
而使得根据每个告警日志对应的告警类型标识特征和指标序列模式特征,对待分析组件集中组件进行故障跟因关联分析,能够快速准确地确定待分析组件集中组件间的故障跟因关联关系,进而提升了故障跟因分析的可靠性。
[0016]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本公开实施例提供的一种故障跟因分析方法的实施环境的示意图。
[0019]图2示意性示出了根据本公开的一实施例的故障跟因分析方法的流程图。
[0020]图3示意性示出了根据本公开的另一实施例的故障本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种故障跟因分析方法,其特征在于,包括:获取待分析组件集中对应的多个待分析指标的原始时序信息,所述多个待分析指标包括所述待分析组件集中的每个组件对应的待分析指标;基于所述多个待分析指标的原始时序信息确定指标序列模式特征;获取所述待分析组件集中的每个组件在第一预设时间范围内的告警日志;确定与每个组件在第一预设时间范围内的告警日志对应的告警日志文本特征;根据每个组件在所述第一预设时间范围内的告警日志对应的告警日志文本特征确定每个告警日志对应的告警类型标识特征;根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系。2.根据权利要求1所述的方法,其特征在于,根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系,包括:获得所述指标序列模式特征与所述待分析组件集中组件间存在故障关联之间的第一互信息;获得所述告警类型标识特征与所述待分析组件集中组件间存在故障关联之间的第二互信息;根据所述第一互信息和所述第二互信息,获得目标互信息;若所述目标互信息大于互信息过滤阈值,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间存在故障关联;若所述目标互信息小于或等于所述互信息过滤阈值,则判定所述待分析组件集中组件间的故障跟因关联关系为所述待分析组件集中组件间不存在故障关联。3.根据权利要求2所述的方法,其特征在于,获得所述指标序列模式特征与所述待分析组件集中组件间存在故障关联之间的第一互信息,包括:获得所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率;获得所述指标序列模式特征的出现概率;根据所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率以及所述指标序列模式特征的出现概率,计算所述第一互信息。4.根据权利要求3所述的方法,其特征在于,还包括:获取多个标注组件间存在故障关联的正样本组件集对应的样本指标序列模式特征;获取多个标注组件间不存在故障关联的负样本组件集对应的样本指标序列模式特征;根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;确定样本指标序列模式特征与所述指标序列模式特征匹配的正样本组件集的数量;根据所述正样本组件集的数量和样本指标序列模式特征与所述指标序列模式特征匹配的正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述指标序列模式特征的出现条件概率;确定所述指标序列模式特征在正样本组件集和负样本组件集中的出现次数;根据所述指标序列模式特征在正样本组件集和负样本组件集中的出现次数与所述总样本组件集的数量,计算所述指标序列模式特征的出现概率。
5.根据权利要求2所述的方法,其特征在于,获得所述告警类型标识特征与所述待分析组件集中组件间存在故障关联之间的第二互信息,包括:获得所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率;获得所述告警类型标识特征的出现概率;根据所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率以及所述告警类型标识特征的出现概率,计算所述第二互信息。6.根据权利要求5所述的方法,其特征在于,还包括:获取多个标注组件间存在故障关联的正样本组件集对应的样本告警类型标识特征;获取多个标注组件间不存在故障关联的负样本组件集对应的样本告警类型标识特征;根据正样本组件集的数量和负样本组件集的数量获得总样本组件集的数量;确定样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量;根据所述正样本组件集的数量和样本告警类型标识特征与所述告警类型标识特征匹配的正样本组件集的数量,计算所述待分析组件集中组件间存在故障关联下所述告警类型标识特征的出现条件概率;确定所述告警类型标识特征在正样本组件集和负样本组件集中的出现次数;根据所述告警类型标识特征在正样本组件集和负样本组件集中的出现次数与所述总样本组件集的数量,计算所述告警类型标识特征的出现概率。7.根据权利要求1所述的方法,其特征在于,根据每个告警日志对应的告警类型标识特征和所述指标序列模式特征,确定所述待分析组件集中组件间的故障跟因关联关系,包括:将每个告警日志对应的告警类型标识特征和所述指标序列模式特征作为输入特征,计算所述输入特征下所述待分析组件集中组件间存在故障关联的第一条件概率;计算所述输入特征下...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1