当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于知识图谱技术的分布式系统故障根因溯源方法技术方案

技术编号:30021364 阅读:25 留言:0更新日期:2021-09-11 06:42
本发明专利技术公开了一种基于知识图谱技术的分布式系统故障根因溯源方法,用于解决大型分布式系统故障根因溯源困难问题。分布式系统故障根因溯源任务是找出导致系统故障的根本原因。本发明专利技术针对分布式系统中的故障为每类故障构建了故障知识图谱,构建过程中使用了模板技术从历史故障数据中生成事件,然后利用机器学习模型学习事件之间的关系构建故障传播图,最后使用合并算法抽取相同类型故障的故障传播图的共有结构生成故障知识图谱。故障发生时,通过构建计算实时故障传播图并与故障知识图谱之间的相似度,得到与实时故障传播图最相似的故障知识图谱,从而根据故障知识图谱标志的故障根因得到导致系统故障的根本原因。障根因得到导致系统故障的根本原因。障根因得到导致系统故障的根本原因。

【技术实现步骤摘要】
一种基于知识图谱技术的分布式系统故障根因溯源方法


[0001]本专利技术属于知识图谱领域,具体涉及一种基于知识图谱技术的分布式系统故障根因溯源方法。

技术介绍

[0002]随着虚拟化技术的快速发展,分布式系统越来越庞大且复杂。由于分布式系统的网络拓扑结构复杂、故障修复时间紧迫、高水平分布式系统运维人员稀缺等问题,当系统出现故障时,运维人员很难在短时间内找到根本原因,系统将处于不稳定状态。及时找出大型分布式系统故障的根因,保证系统的安全稳定运行是一个亟待解决的问题。近年来,越来越多的研究者开始关注这些问题,基于依赖图的方法和基于因果图的方法在应对复杂系统故障根因分析问题上取得了一些不错的成果。但是这些方法均存在两点局限性:1、它们尚未研究如何利用历史数据中隐藏的显式知识来指导当前的根因分析;2、它们无法完整地解释出事件层次的故障触发路径。
[0003]故障的传播路径蕴含着很多故障信息,传播路径上不同的设备和不同的传播顺序会导致不同的故障。而知识图谱是结构化的语义知识库,可以用来保存故障传播路径这种结构有限制的有向无环图。将故障传播路径这种显示知识沉淀为故障知识图谱,然后引入故障根因分析不仅可以提高根因分析精确率,还可以帮助运维人员了解故障传播过程,从而针对性地修复故障。
[0004]基于现有方法的局限性,本专利技术针对分布式系统中的故障为每类故障构建了故障知识图谱,提出了一种基于知识图谱技术的故障根因溯源方法。

技术实现思路

[0005]为解决上述问题,本专利技术公开了一种基于知识图谱技术的分布式系统故障根因溯源方法,该方法避免了大量重复的人工异常排查和故障诊断的工作,大大减少故障根因溯源时间,能够自动、频繁、高效地对分布式系统中的故障进行故障溯源,在保证了较小的故障溯源耗时的同时,也保证了故障溯源的质量。
[0006]本专利技术以分布式系统历史故障数据为起点,从历史metric数据和日志数据中生成事件。然后使用事件的特征训练关系分类器,利用关系分类器挖掘历史事件之间的关系,构建历史故障传播图。接着对相同故障的历史故障传播图抽取相似结构,构建故障知识图谱。当分布式系统发生故障时,收集实时故障数据,构建实时故障传播图,通过计算实时故障传播图与故障知识图谱之间的相似度,得到与实时故障传播图最相似的故障知识图谱,从而根据故障知识图谱标志的故障根因判断实时故障的根因。
[0007]为达到上述目的,本专利技术的技术方案如下:
[0008]一种基于知识图谱技术的分布式系统故障根因溯源方法,包括如下步骤:
[0009]1)收集分布式系统历史故障数据,使用异常检测算法和模板方法生成事件;
[0010]2)抽取事件的特征来训练关系分类器,然后利用关系分类器挖掘历史事件之间的
关系,构建历史故障传播图;
[0011]3)对相同故障的故障传播图抽取相似结构,构建故障知识图谱,一个故障知识图谱标志着一种故障及其传播路径和根因;
[0012]4)收集分布式系统实时故障数据,通过步骤2)的方法构建实时故障传播图;
[0013]5)计算实时故障传播图与故障知识图谱之间的相似度,得到与实时故障传播图最相似的故障知识图谱,从而根据故障知识图谱标志的故障根因判断实时故障的根因。
[0014]本专利技术的基于知识图谱技术的分布式系统故障根因溯源方法中,上述步骤中运维事件、抽象运维事件、故障传播图、故障知识图谱按照如下方式定义:
[0015]定义1:运维事件。运维事件e=(E,t,l),其中E∈ε是事件类型,ε={E1,E2,

,E
m
}是 m个事件类型的有限集合,t表示该运维事件的时间戳,l表示此事件发生的位置]。
[0016]定义2:抽象运维事件。抽象运维事件e

=(E,L),其中E∈ε是事件类型,ε={E1,E2,

,E
m
}是m个事件类型的有限集合,而L∈γ是地点类型,γ={L1,L2,

,L
n
}是n 个地点类型的有限集合。
[0017]定义3:故障传播图(Fault Propagation Graph,FPG)。故障传播图FPG是三元组 (e1,r,e2)的集合,其中e1和e2是事件,r是事件e1和e2之间的关系。r是顺序关系或者因果关系。
[0018]定义4:故障知识图谱(Fault Knowledge Graph,FKG)。故障知识图谱FKG是三元组 (e1′
,r,e2′
)的集合,其中e1′
和e2′
是抽象事件,r是抽象事件e1′
和e2′
之间的关系。r是顺序关系或者因果关系。
[0019]本专利技术的基于知识图谱技术的分布式系统故障根因溯源方法中,所述步骤1)中,按照如下方式生成事件(生成方式如下图):
[0020]1‑
a)对系统中的Metric数据(时序数据,如CPU使用率曲线),使用异常检测算法检测出Metric曲线中的异常点,然后通过模板生成事件;
[0021]1‑
b)对系统中的日志数据,使用聚类算法得到主要日志类型,然后通过模板生成事件。
[0022]本专利技术的基于知识图谱技术的分布式系统故障根因溯源方法中,所述步骤2)中根据以下特征训练关系分类器:
[0023]2‑
1)皮尔逊相关系数:两个事件之间的皮尔逊相关系数越高,那么这两个事件越相关,越有可能是因果关系;
[0024]2‑
2)事件共现频率:两个事件在一起出现的频率越高,越有可能有因果关系;
[0025]2‑
3)事件发生位置间的距离:事件发生的位置越近,越可能是因果关系;
[0026]2‑
4)事件发生时间差:事件发生时间越近,越可能是因果关系;
[0027]2‑
5)事件关键性:事件的关键性是指事件对某一故障的重要程度。两个事件的关键性越高,关键性相差越小,越有可能是因果关系;
[0028]2‑
6)事件周期性:周期性出现的事件很大可能是白噪声。这种周期性出现的事件不论故障发生与否都会周期性出现。所以事件周期性越高,它与其他节点的因果关系越弱。
[0029]本专利技术的基于知识图谱技术的分布式系统故障根因溯源方法中,所述步骤2)中,按照如下方式生成故障传播图:
[0030]2‑
a)使用事件特征训练关系分类器;
[0031]2‑
b)使用关系分类器判断事件之间的关系;
[0032]2‑
c)将事件作为节点,事件与事件间的关系作为边,构建故障传播图。
[0033]本专利技术的基于知识图谱技术的分布式系统故障根因溯源方法中,所述步骤3)中,按照如下方式生成故障知识图谱:
[0034]3‑
a)收集相同故障的故障传播图;
[0035]3‑
b)使用取交集的方法获取相同故障的故障本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱技术的分布式系统故障根因溯源方法,其特征在于,该方法包括以下步骤:1)收集分布式系统历史故障数据,使用异常检测算法和模板方法生成事件;2)抽取事件的特征来训练关系分类器,然后利用关系分类器挖掘历史事件之间的关系,构建历史故障传播图;3)对相同故障的故障传播图抽取相似结构,构建故障知识图谱,一个故障知识图谱标志着一种故障及其传播路径和根因;4)收集分布式系统实时故障数据,通过步骤2)的方法构建实时故障传播图;5)计算实时故障传播图与故障知识图谱之间的相似度,得到与实时故障传播图最相似的故障知识图谱,从而根据故障知识图谱标志的故障根因判断实时故障的根因。2.根据权利要求1所述的基于知识图谱技术的分布式系统故障根因溯源方法,其特征在于,所述运维事件、抽象运维事件、故障传播图、故障知识图谱按照如下方式定义:定义1:运维事件:运维事件e=(E,t,l),其中E∈ε是事件类型,ε={E1,E2,

,E
m
}是m个事件类型的有限集合,t表示该运维事件的时间戳,l表示此事件发生的位置
]
,定义2:抽象运维事件:抽象运维事件e

=(E,L),其中E∈ε是事件类型,ε={E1,E2,

,E
m
}是m个事件类型的有限集合,而L∈γ是地点类型,γ={L1,L2,

,L
n
}是n个地点类型的有限集合,定义3:故障传播图:故障传播图FPG是三元组(e1,r,e2)的集合,其中e1和e2是事件,r是事件e1和e2之间的关系,r是顺序关系或者因果关系,定义4:故障知识图谱:故障知识图谱FKG是三元组(e
′1,r,e
′2)的集合,其中e
′1和e
′2是抽象事件,r是抽象事件e
′1和e
′2之间的关系,r是顺序关系或者因果关系。3.根据权利要求1所述的基于知识图谱技术的分布式系统故障根因溯源方法,其特征在于,所述步骤1)中,按照如下方式生成事件:1

a)对系统中的Metric数据,使用异常检测算法检测出Metric曲线中的异常点,然后通过模板生成事件;1

b)对系统中的日志数据,使用聚类算法得到主要日志类型,然后通过模板生成事件。4.根据权利要求1所述的基于知识图谱技术的分布式系统故障根因溯源方法,其特征在于,所述步骤2)中根据以下特征训练关系分类器:2

1)皮尔逊相关系数:两个事件之间的皮尔逊相关系数越高,那么这两个事件越相关,越有可能是因果关系;2

2)事件共现频率:两个事件在一...

【专利技术属性】
技术研发人员:吴天星罗安源漆桂林方苏东
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1