【技术实现步骤摘要】
运维故障根因识别方法、装置、计算机设备和存储介质
本申请涉及运维
,特别涉及一种运维故障根因识别方法、装置、计算机设备和存储介质。
技术介绍
运维系统中,某告警对象所产生的故障可能引发多个对象的告警,而每一时刻可能存在多个对象故障所引发的大量关联告警。对于运维工作人员而言,告警是故障的表现,而具体故障则需要通过告警进行分析判断。由于告警的频发性与关联性,工作人员需要时刻关注运维系统,对某时刻的告警对象进行切分以归纳为不同的问题,并对于每一个问题进行根因分析以判定故障对象。目前大多采用两种方法进行根因分析,一种方法是通过规则实现,另一种方法是通过监督学习方法实现。第一种方法基于对象调用链路与规则以将多个告警对象归纳为不同的簇,并对每个簇按照规则进行根因概率排序(排序步骤也可通过监督学习方法实现)。第二种方法通过根因标注,可通过GCN图卷积神经网络等图算法直接标注根因。第一种方法通过规则聚类,不仅缺少灵活性而且常常需要运维专家根据实际情况进行更改,影响了后续根因的判断。第二种方法通过GCN直接进行根因识别效率较高, ...
【技术保护点】
1.一种运维故障根因识别方法,其特征在于,包括以下步骤:/n获取多个告警对象;/n利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;/n通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;/n选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。/n
【技术特征摘要】
1.一种运维故障根因识别方法,其特征在于,包括以下步骤:
获取多个告警对象;
利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇;
通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值;其中,所述根因识别模型基于深度神经网络模型训练而成;
选择每个所述告警簇中最大概率值对应的所述告警对象作为该告警簇的根因。
2.根据权利要求1所述的运维故障根因识别方法,其特征在于,所述利用预设的聚类算法对多个所述告警对象进行聚类计算,将多个所述告警对象聚类为若干个告警簇的步骤,包括:
获取多个所述告警对象之间的相互调用链图谱;
提取所述相互调用链图谱中不存在调用关联的节点,保留所述相互调用链图谱中的剩余关联节点;
采用图算法Node2Vec对所述剩余关联节点进行节点编码;
根据所述节点编码进行聚类,得到若干个所述告警簇。
3.根据权利要求2所述的运维故障根因识别方法,其特征在于,所述根据所述节点编码进行聚类,得到若干个所述告警簇的步骤,包括:
获取所述剩余关联节点中任一节点的直接和/或间接关联的节点集合;
计算所述节点集合中各个所述节点之间的相似度;
根据所述相似度进行分类。
4.根据权利要求2所述的运维故障根因识别方法,其特征在于,所述通过预设的根因识别模型对若干个所述告警簇进行根因分析,得到各个所述告警簇中各个告警对象为根因的概率值的步骤,包括:
获取各个所述告警簇中所述告警对象的自有特征和节点编码特征的向量;
将所述自有特征和节点编码特征的向量进行拼接得到目标向量;
将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率。
5.根据权利要求4所述的运维故障根因识别方法,其特征在于,所述将所述目标向量输入至所述根因识别模型进行计算,得到所述目标向量所对应的告警对象为根因的概率的步骤,包括:
根据所述目标向量创建第一矩阵;
将所述第一矩阵输入至Transformer层进行迭代计算,输出第二矩阵;
将所...
【专利技术属性】
技术研发人员:陈桢博,郑立颖,徐亮,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。