基于自演化网络知识库的运维故障链标注系统及方法技术方案

技术编号:37540508 阅读:15 留言:0更新日期:2023-05-12 16:09
本发明专利技术提供了一种基于自演化网络知识库的运维故障链标注方法及系统,包括:步骤S1:构建基础运维知识库;步骤S2:构建单指标异常检测器;步骤S3:基于知识库拓展候选故障节点;步骤S4:基于知识库标注故障链;步骤S5:基于标注过程数据的运维知识库演化。本发明专利技术自动推荐相关故障和故障间的关系,提高标注的完整度、降低标注的人力成本。低标注的人力成本。低标注的人力成本。

【技术实现步骤摘要】
基于自演化网络知识库的运维故障链标注系统及方法


[0001]本专利技术涉及标注数据
,具体地,涉及基于自演化网络知识库的运维故障链标注系统及方法。

技术介绍

[0002]标注数据是用于构建基于机器学习的运维故障检测系统的输入,对系统的工作效果影响重大。目前的数据标注一般仅标注故障中的单一异常设备,但真实场景下,一次运维故障可能存在多个异常设备且相互之间包含因果、关联等关系;运维故障标注需要较强的专业背景知识,且对被标注网络系统较为熟悉,标注的人力成本高昂。
[0003]专利文献CN115204256A(申请号:202210625083.8)公开了一种数据标注系统、方法和数据标注管理器,属于机器学习
该系统包括数据标注管理器、标注模型存储仓库和基础计算单元存储仓库。数据标注管理器接收数据标注请求,在基础计算单元存储仓库中获取目标基础计算单元,并对其分配硬件资源,建立目标计算单元,获取第一标注模型的基础参数数据的第一存储路径信息并发送至目标计算单元。目标计算单元通过第一存储路径信息,在标注模型存储仓库中获取待使用标注模型的基础参数数据,将目标模型推理框架和第一标注模型的基础参数数据组合成第一标注模型,使用第一标注模型,对待标注数据进行标注。该专利缺点是标注独立样本,未对样本之间的关联关系进行标注,没有处理标注数据之间的关联性,未考虑环境因素,运维场景故障之间相互关联、拓扑环境和通信关系与故障紧密关联。
[0004]专利文献CN114756521A(申请号:202210319400.3)公开了一种日志标签标注方法,该方法包括以下步骤:获取待标注日志的原始字符序列;利用引入片段循环机制的编码器对原始字符序列进行预编码操作,得到目标特征向量序列;获取预设实体类别信息;利用图卷积神经网络根据预设实体类别信息对目标特征向量序列进行非线性变换,得到原始字符序列中各字符分别对应的目标特征矩阵;根据各目标特征矩阵对各字符进行标签标注操作。该专利强调单一样本标注标签检测的方法,没有处理标注数据之间的关联性,未考虑环境因素,运维场景故障之间相互关联、拓扑环境和通信关系与故障紧密关联;
[0005]专利文献CN111428440A(申请号:201811584484.3)公开了一种基于条件概率的时序日志样本自动标注方法及装置,该方法包括:根据日志库中每个第一类型的异常日志行的第一比值集合,确定第一时间窗口;根据每个所述第一类型的异常日志行的所述第一时间窗口内的第二比值集合,确定第二时间窗口;将每个所述第一类型的异常日志行的所述第二时间窗口内的所有日志行标注为异常日志行。该专利使用条件概率提高对单一日志的标注的准确性,没有处理标注数据之间的关联性,未考虑环境因素,运维场景故障之间相互关联、拓扑环境和通信关系与故障紧密关联。
[0006]本专利技术针对上述痛点,提出基于自演化网络知识库的运维故障链标注系统及方法,该系统和方法自动推荐相关故障和故障间的关系,提高标注的完整度、降低标注的人力成本;系统生成的标注结果完整保存了故障之间的链式关系,基于此数据构建的关键检测
系统的效果将被改善;系统通过已标注的数据自动更新知识库,实现知识库自演化,以在后续达到更好的标注效果。

技术实现思路

[0007]针对现有技术中的缺陷,本专利技术的目的是提供一种基于自演化网络知识库的运维故障链标注方法及系统。
[0008]根据本专利技术提供的一种基于自演化网络知识库的运维故障链标注方法,包括:
[0009]步骤S1:构建基础运维知识库;
[0010]步骤S2:构建单指标异常检测器;
[0011]步骤S3:基于知识库拓展候选故障节点;
[0012]步骤S4:基于知识库标注故障链;
[0013]步骤S5:基于标注过程数据的运维知识库演化。
[0014]优选地,所述步骤S1采用:
[0015]步骤S1.1:定义发生运维故障所包含的对象类型,包括:网络、虚拟网络、交换机、路由器、物理机、虚拟机、docker进程、邮件服务、数据库服务以及web应用服务;
[0016]步骤S1.2:定义不同类型的对象所包含的指标属性;
[0017]步骤S1.3:定义不同对象类型之间的关系以及关系方向;
[0018]步骤S1.4:基于网络流量生成流量拓扑图;
[0019]步骤S1.5:基于流量拓扑图、对象类型,对象所包含的指标属性和对象类型之间的关系以及关系方向构建运维知识库。
[0020]优选地,所述步骤S1.4采用:监控一定时长的网络流量,解析网络流量数据包,依据流量数据中包含的IP、MAC、端口信息以及通信次数绘制流量拓扑图;
[0021]所述流量拓扑图包括节点、边以及边上权重;
[0022]流量拓扑图中的节点包括MAC节点、IP节点以及IP+端口节点,分别对应候选物理设备、候选虚拟设备以及候选应用;
[0023]流量拓扑图中的边是节点之间存在网络流量;
[0024]流量拓扑图中的边上权重是将所有节点之间的通信次数进行升序排序,将排序结果划分为N段并从小到大用1到N的数字标记每一段,并用1到N表示相应的边上权重。
[0025]优选地,所述步骤S1.5采用:基于生成的流量拓扑图标注节点对象类型;基于流量拓扑图标注的节点对象类型获取节点对象所包含的指标属性、不同对象类型之间的关系以及关系方向,从而建立运维知识库;
[0026]所述运维知识库包括Entity表和Relation表;所述Entity表用于存储标注的节点;所述Relation表用于存储节点间的关系。
[0027]优选地,所述步骤S2采用:
[0028]步骤S2.1:收集单指标数据样本并标注其中异常;
[0029]步骤S2.2:基于收集的样本数据对异常检测模型进行训练得到训练后的异常检测模型;利用训练后的异常检测模型获得输入的指标数据的异常概率X1;
[0030]步骤S2.3:编写人工异常检测规则集合,基于当前异常检测规则集合获得输入的指标数据的异常概率X2;
[0031]步骤S2.4:利用联合检测器基于异常概率X1和异常概率X2计算获得检测分值X,并将检测分值X与阈值相比较,当检测分值X大于阈值时,则表示当前指标数据为包含异常。
[0032]优选地,所述步骤S3采用:
[0033]步骤S3.1:基于运维知识库,对当前故障设备进行相关设备拓扑;
[0034]当发现故障的设备Device1的指标Metric1异常时,从运维知识库中找到当前设备所对应的节点Entity1,从运维知识库的节点关系表Relation中找到与之存在直接关联的节点、1阶间接关联节点

N阶间接关联节点;
[0035]步骤S3.2:采用通信权重的随机游走测量基于相关设备确定故障节点拓扑集合。
[0036]优选地,所述步骤S3.2采用:
[0037]步骤S3.2.1:选择故障设备Device1为当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自演化网络知识库的运维故障链标注方法,其特征在于,包括:步骤S1:构建基础运维知识库;步骤S2:构建单指标异常检测器;步骤S3:基于知识库拓展候选故障节点;步骤S4:基于知识库标注故障链;步骤S5:基于标注过程数据的运维知识库演化。2.根据权利要求1所述的基于自演化网络知识库的运维故障链标注方法,其特征在于,所述步骤S1采用:步骤S1.1:定义发生运维故障所包含的对象类型,包括:网络、虚拟网络、交换机、路由器、物理机、虚拟机、docker进程、邮件服务、数据库服务以及web应用服务;步骤S1.2:定义不同类型的对象所包含的指标属性;步骤S1.3:定义不同对象类型之间的关系以及关系方向;步骤S1.4:基于网络流量生成流量拓扑图;步骤S1.5:基于流量拓扑图、对象类型,对象所包含的指标属性和对象类型之间的关系以及关系方向构建运维知识库。3.根据权利要求2所述的基于自演化网络知识库的运维故障链标注方法,其特征在于,所述步骤S1.4采用:监控一定时长的网络流量,解析网络流量数据包,依据流量数据中包含的IP、MAC、端口信息以及通信次数绘制流量拓扑图;所述流量拓扑图包括节点、边以及边上权重;流量拓扑图中的节点包括MAC节点、IP节点以及IP+端口节点,分别对应候选物理设备、候选虚拟设备以及候选应用;流量拓扑图中的边是节点之间存在网络流量;流量拓扑图中的边上权重是将所有节点之间的通信次数进行升序排序,将排序结果划分为N段并从小到大用1到N的数字标记每一段,并用1到N表示相应的边上权重。4.根据权利要求2所述的基于自演化网络知识库的运维故障链标注方法,其特征在于,所述步骤S1.5采用:基于生成的流量拓扑图标注节点对象类型;基于流量拓扑图标注的节点对象类型获取节点对象所包含的指标属性、不同对象类型之间的关系以及关系方向,从而建立运维知识库;所述运维知识库包括Entity表和Relation表;所述Entity表用于存储标注的节点;所述Relation表用于存储节点间的关系。5.根据权利要求1所述的基于自演化网络知识库的运维故障链标注方法,其特征在于,所述步骤S2采用:步骤S2.1:收集单指标数据样本并标注其中异常;步骤S2.2:基于收集的样本数据对异常检测模型进行训练得到训练后的异常检测模型;利用训练后的异常检测模型获得输入的指标数据的异常概率X1;步骤S2.3:编写人工异常检测规则集合,基于当前异常检测规则集合获得输入的指标数据的异常概率X2;步骤S2.4:利用联合检测器基于异常概率X1和异常概率X2计算获得检测分值X,并将检测分值X与阈值相比较,当检测分值X大于阈值时,则表示当前指标数据为包含异常。
6.根据权利要求1所述的基于自演化网络知识库的运维故障链标注方法,其特征在于,所述步骤S3采用:步骤S3.1:基于运维知识库,对当前故障设备进行相关设备拓扑;当发现故障的设备Device1的指标Metric1异常时,从运维知识库中找到当前设备所对应的节点Entity1,从运维知识库的节点关系表Relation中找到与之存在直接关联的节点、1阶间接关联节点

N阶间接关联节点;步骤S3.2:采用通信权重的随机游走测量基于相关设备确定故障节点拓扑集合。7.根据权利要求6所述的基于自演化网络知识库的运维故障链标注方法,其特征在于,所述步骤S3.2采用:步骤S3.2.1:选择故障设备Device1为当前节点,记为cur_node,标记为已访问;步骤3.2.2:与当前节点Device1拓扑相邻且未访问的节点集合为set,设set中每个节点rel_nodei与cur_node的权重为w
i
(i为1,2

n),计算每个节点的概率命中区间R:对于rel_nodei,Pi=Σwi/Σwn;定义节点i的概率命中区间为Ri=(Pi

1,Pi],当i=0时,命中区间为R0=(0,Pi];步骤3.2.3:生成一个0到1的随机数x,当随机数x落入的命...

【专利技术属性】
技术研发人员:支凤麟蔡晓华
申请(专利权)人:上海天旦网络科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1