一种基于深度学习的网络告警定位方法技术

技术编号:26511124 阅读:25 留言:0更新日期:2020-11-27 15:40
本发明专利技术公开了一种基于深度学习的网络告警定位方法,先对历史的告警信息数据进行预处理;构建根因节点告警信息类别知识库;使用基于分布式假设的词表示模型将节点与告警信息组合映射成特征表示;将根因节点样本集合数据扩充至与非根因节点样本集合的样本数相同;将扩充后的数据集作为训练集,训练LSTM模型;对新的数据样本用同样的方法得到特征表示,输入保存好的模型,得到预测样本为根因节点的概率值集合;将预测概率大于阈值的样本筛选出来并存入疑似根因节点集合;根据疑似根因节点集合连接关系确定根因节点。该方法可提高网络运维的效率,节省成本。

【技术实现步骤摘要】
一种基于深度学习的网络告警定位方法
本专利技术涉及计算机网络运维,特别涉及一种基于深度学习的网络告警定位方法。
技术介绍
故障管理是网络管理的一个重要组成部分,包括故障发现、故障诊断和故障修复,难点在于确定故障的根源,即故障根因节点。目前各种大型平台的内部涉及到了上百个系统间相互调用,其网络节点之间会产生大量的告警信息。而在网络中如果一个节点出现故障,调用该节点或者需要利用该节点资源的节点可能也会继而发生故障,从而产生大量的告警信息,而且可能比根因故障节点还早发出告警信息。这些问题的存在导致故障定位十分困难。每次网络出现告警时,需要有运维人员在最短时间内正确地判断出告警的关联关系,筛选出根因节点,然后采取相应的措施。如果有海量的告警信息发生,那么对于这些告警信息的人工处理将会占据大量人力资源,而且效率低下,甚至可能有重复告警信息。所以设计出网络告警信息根因定位自动化技术十分有必要。由于网络实在过于庞大,所以故障的发生在网络的运行中是不可能避免的。一般的做法是通过告警信息的告警关联方法,将告警之间的关系找出来,筛选掉不相关的告警信息,留下相关的告警信息。一般的告警关联方法有基于规则推理的方法、人工智能方法、因果图方法等。基于规则推理的方法需要设计一套告警信息出现的规则,实现起来十分困难,并且无法应对事先没有考虑到的情况,稳定性不足。而一般的人工智能方法,难以搜集到包含一堆关联的告警信息数据集,而且对告警信息数据的特征难以确定。而且根因告警信息样本数据一般比较少,所以还有数据不平衡的问题产生,导致模型过拟合,最终效果不佳。因果图方法也是对告警信息的连接关系进行规则推理得出根因节点。但是这些方法都不具备实时性,若产生了新的告警信息,无法实时匹配其中是否包含有成立的关联规则,难以满足告警关联分析实时性需求。
技术实现思路
专利技术目的:本专利技术目的是提供一种提高网络运维的效率,降低网络故障所造成的损失的基于深度学习的网络告警定位方法。该方法在网络节点互相调用而产生大量告警数据的环境下,将非根因节点所发出的告警信息进行筛选,最终实时定位出根因节点。技术方案:本专利技术提供的一种基于深度学习的网络告警定位方法,包括如下步骤:步骤1:搜集到历史的一个具体的时间区间内的告警信息样本数据,对这些样本进行重复告警信息删除数据预处理;步骤2:去除重复告警信息以后,对孤立节点的样本也进行筛选。筛选完以后对所有样本中的节点的告警信息进行归类,然后对根因告警信息种类进行统计。构建根因节点告警信息类别知识库;步骤3:将样本的节点信息和告警信息组合后输入基于分布式假设的词表示模型,最终得到样本的特征表示。每个样本中都包含了特征表示和根因节点标记两个信息;步骤4:将样本数据集中的根因标记按1和0分为两个子集。针对根因标记为1的子集中的样本,利用样本扩充方法将其样本数扩充至和根因标记为0的子集样本数一致;步骤5:将扩充后的数据集的样本中的特征表示作为LSTM模型的输入,扩充后数据集的样本中的根因标记为LSTM模型的输出,对模型进行训练,并且将模型以及其参数保存下来。得到输入为特征表示,输出为将此样本预测为根因节点的概率值的一个模型;步骤6:取得实际中搜集到的新的一天内的告警信息样本数据集。样本中数据的存储内容包含了该样本的节点和该样本的告警信息。按步骤3的做法,将新数据集中每个样本的节点和告警信息组合后输入基于分布式假设的词表示模型中生成每个样本的特征表示,得到其对应的特征表示集合;步骤7:将所有样本的特征表示输入步骤5中存储的模型,得到每个样本被预测为疑似根因节点的概率集合。将所有概率大于阈值的样本节点存储起来作为疑似根因节点集合;步骤8:将疑似根因节点集合中的节点所发出的告警信息与步骤2中所建立的根因节点告警信息类别知识库中的告警信息种类进行比对,将不存在于知识库中的节点删除。若疑似根因节点集合中没有元素,则直这一天没有根因节点。否则利用节点之间的距离关系和知识库筛选出根因节点。进一步地,所述步骤1的具体过程为:步骤11,将所有样本的节点告警信息、对应的节点和根因标记制作成包含节点、告警信息和根因标记的三元组格式存储,创建一个空的字典;步骤12,将一天内的告警信息放进队列;步骤13,判断队列是否为空,若为空,直接到步骤15,若不为空,则出队一个元素;步骤14,判断出队的元素是否存在于字典中,若存在则不做操作,若不存在则将其加入字典中。返回步骤13;步骤15,将字典中的所有元素存储起来,作为去除了重复告警信息的样本数据集。进一步地,所述步骤2的具体过程为:步骤21,根据每天的告警节点的连接关系制作成一个邻接矩阵,有连接关系的节点对应的矩阵位置的值置为1,没有连接关系的节点对应的矩阵位置的值置为0;步骤22,计算每个节点代表的行、列所有元素的和;步骤23,将行、列所有元素的和为0的节点去除;步骤24,剩下的样本中,将所有的样本的告警信息归类,存储进根因节点告警信息类别知识库中,并计算每个种类的出现频率。进一步地,所述步骤4的具体过程为:步骤41,设根因标记为1的子集为T1,根因标记为0的子集为T0。将T1内的所有样本之间的欧式距离计算出来,然后将每个样本最近距离的k个样本记录(本专利技术k取值优选为3)。得到了每个样本的k近邻(k=3);步骤42,创建一个空列表Tnew;步骤43,若Tnew与T1的样本数的和与T0样本数相同,直接跳到步骤46;步骤44,随机选取T1中的一个样本的节点和告警信息特征表示x,然后再将其k近邻的样本中随机抽取一个样本并取其节点和告警信息特征表示x′,利用以下公式计算出新样本的节点和告警信息特征表示xnew,其中rand(0,1)表示从0~1中随机取值;xnew=x+rand(0,1)|x-x|步骤45,将新构建出的xnew以及其根因标记构建成二元组,这里的根因标记值恒为1。加入Tnew列表。作为新扩充的样本。返回步骤43;步骤46,将Tnew的所有样本加入T1。进一步地,在步骤7的疑似根因节点集合生成以后,将疑似根因节点集合设为Ss,所述步骤8的具体过程为:步骤81,新建一个空列表Sc,将Ss中所有节点的告警信息与步骤2中生成的根因节点告警信息类别知识库进行比对,保留Ss中节点对应的告警信息种类存在于知识库中的节点;步骤82,若Ss为空集,则说明这一天中没有根因节点,结束。若Ss只有一个节点,则此节点为根因节点,结束;步骤83,将一天所有样本中的节点的连接关系制作成邻接矩阵,其中每条边的权值设置为1。根据连接关系,计算出Ss与一天所有样本的节点的最短距离。并统计在根因节点故障传播范围(本专利技术设定为2跳以内)内的节点个数,然后形成包含节点和根因节点故障传播范围内节点数的二元组,并将其加入Sc中;步骤84,取出Sc中根因节点故障传播范围内节点数最大的元素,若元素唯一,则其元组对应的节点即为根本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的网络告警定位方法,其特征在于:包括如下步骤:/n步骤1:搜集到历史的一个具体的时间区间内的告警信息样本数据,对这些样本进行重复告警信息删除数据预处理;/n步骤2:去除重复告警信息以后,对孤立节点的样本也进行筛选,筛选完以后对所有样本中的节点的告警信息进行归类,然后对根因告警信息种类进行统计,构建根因节点告警信息类别知识库;/n步骤3:将样本的节点信息和告警信息组合后输入基于分布式假设的词表示模型,最终得到样本的特征表示,每个样本中都包含了特征表示和根因节点标记两个信息;/n步骤4:将样本数据集中的根因标记按1和0分为两个子集,针对根因标记为1的子集中的样本,利用样本扩充方法将其样本数扩充至和根因标记为0的子集样本数一致;/n步骤5:将扩充后的数据集的样本中的特征表示作为LSTM模型的输入,扩充后数据集的样本中的根因标记为LSTM模型的输出,对模型进行训练,并且将模型以及其参数保存下来,得到输入为特征表示,输出为将此样本预测为根因节点的概率值的一个模型;/n步骤6:取得实际中搜集到的新的一天内的告警信息样本数据集,样本中数据的存储内容包含了该样本的节点和该样本的告警信息,按步骤3的方法,将新数据集中每个样本的节点和告警信息组合后输入基于分布式假设的词表示模型中生成每个样本的特征表示,得到其对应的特征表示集合;/n步骤7:将所有样本的特征表示输入步骤5中存储的模型,得到每个样本被预测为疑似根因节点的概率集合,将所有概率大于阈值的样本节点存储起来作为疑似根因节点集合;/n步骤8:将疑似根因节点集合中的节点所发出的告警信息与步骤2中所建立的根因节点告警信息类别知识库中的告警信息种类进行比对,将不存在于知识库中的节点删除,若疑似根因节点集合中没有元素,则说明这一天没有根因节点,否则利用节点之间的距离关系和知识库筛选出根因节点。/n...

【技术特征摘要】
1.一种基于深度学习的网络告警定位方法,其特征在于:包括如下步骤:
步骤1:搜集到历史的一个具体的时间区间内的告警信息样本数据,对这些样本进行重复告警信息删除数据预处理;
步骤2:去除重复告警信息以后,对孤立节点的样本也进行筛选,筛选完以后对所有样本中的节点的告警信息进行归类,然后对根因告警信息种类进行统计,构建根因节点告警信息类别知识库;
步骤3:将样本的节点信息和告警信息组合后输入基于分布式假设的词表示模型,最终得到样本的特征表示,每个样本中都包含了特征表示和根因节点标记两个信息;
步骤4:将样本数据集中的根因标记按1和0分为两个子集,针对根因标记为1的子集中的样本,利用样本扩充方法将其样本数扩充至和根因标记为0的子集样本数一致;
步骤5:将扩充后的数据集的样本中的特征表示作为LSTM模型的输入,扩充后数据集的样本中的根因标记为LSTM模型的输出,对模型进行训练,并且将模型以及其参数保存下来,得到输入为特征表示,输出为将此样本预测为根因节点的概率值的一个模型;
步骤6:取得实际中搜集到的新的一天内的告警信息样本数据集,样本中数据的存储内容包含了该样本的节点和该样本的告警信息,按步骤3的方法,将新数据集中每个样本的节点和告警信息组合后输入基于分布式假设的词表示模型中生成每个样本的特征表示,得到其对应的特征表示集合;
步骤7:将所有样本的特征表示输入步骤5中存储的模型,得到每个样本被预测为疑似根因节点的概率集合,将所有概率大于阈值的样本节点存储起来作为疑似根因节点集合;
步骤8:将疑似根因节点集合中的节点所发出的告警信息与步骤2中所建立的根因节点告警信息类别知识库中的告警信息种类进行比对,将不存在于知识库中的节点删除,若疑似根因节点集合中没有元素,则说明这一天没有根因节点,否则利用节点之间的距离关系和知识库筛选出根因节点。


2.根据权利要求1所述基于深度学习的网络告警定位方法,其特征在于:所述步骤1的具体过程为:
步骤11:将所有样本的节点告警信息、对应的节点和根因标记制作成节点、告警信息、根因标记的三元组格式存储,创建一个空的字典;
步骤12:将一天内的告警信息放进队列;
步骤13:判断队列是否为空,若为空,直接到步骤15,若不为空,则出队一个元素;
步骤14:判断出队的元素是否存在于字典中,若存在则不做操作,若不存在则将其加入字典中,返回步骤13;
步骤15:将字典中的所有元素存储起来,作为去除了重复告警信息的样本数据集。


3.根据权利要求1所述基于深度学习的网络告警定位方法,其特征在于:所述步...

【专利技术属性】
技术研发人员:徐小龙黄寄赵娟徐佳姜宇孙维
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1