网络故障分析方法及装置制造方法及图纸

技术编号:31010557 阅读:10 留言:0更新日期:2021-11-30 00:08
本申请涉及通信技术领域,具体涉及一种网络故障分析方法及装置。该方法包括:获取用户上报的故障事件;获取数据中心的网元的第一指标数据,其中所述第一指标数据与所述故障事件关联,且所述第一指标数据被故障检测模型确认为正常数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为故障数据的能力,所述第一指标数据是所述第二指标数据的子集。该方法可以为与故障数据关联的指标数据设置标签,并使用设置标签后的指标数据对故障检测模型进行训练,使得故障检测模型获得正确识别故障数据的能力,由此,提高了故障检测模型的识别准确率。率。率。

【技术实现步骤摘要】
网络故障分析方法及装置


[0001]本申请涉及通信
,具体涉及一种网络故障分析方法及装置。

技术介绍

[0002]在传统数据中心的网络运维中,专门运维人员在站点进行值守,通过实时监控网络设备的多项独立关键指标。然后,由相关运维专家,基于监控得到的关键指标来判断网络是否出现问题,并借助专业复杂的工具(如抓包,包染色等)来人工进行故障节点判断。由于软件定义网络(software defined network,SDN)覆盖设备面广,指标多,拓扑复杂,人工分析效率低,对人员的技能要求高。若采用传统的运维方案,难以在第一时间对SDN进行故障定界。
[0003]随着机器学习的技术成熟度日渐提升,可以很好的处理多维度指标间的关联性分析,已经逐渐被用在复杂度较高的网络故障排查。
[0004]现有的基于机器学习的网络故障排除方案,基于已采集的故障数据进行离线模型训练,然后投入到现网中使用。由于已采集的故障数据有限,难以覆盖现网中的各种情况,可能会出现故障识别过于敏感或迟钝等问题。

技术实现思路

[0005]本申请实施例提供了一种网络故障分析方法及装置,在故障检测模型上线使用过程中,可以对故障检测模型进行增量训练,实现了故障检测模型的边使用边更新,使得故障检测模型的识别准确率越来越高。
[0006]第一方面,本申请实施例提供了一种网络故障分析方法,包括:获取用户上报的故障事件;获取数据中心的网元的第一指标数据,其中第一指标数据与故障事件关联,且第一指标数据被故障检测模型确认为正常数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为故障数据的能力,第二指标数据是根据所述第一指标数据确定的。
[0007]也就是说,在故障检测模型将故障数据识别为正常数据,即故障检测模型识别错误的情况下,可以为与故障数据关联的指标数据设置标签,并使用设置标签后的指标数据对故障检测模型进行训练,使得故障检测模型获得正确识别故障数据的能力,由此,提高了故障检测模型的识别准确率。
[0008]可选地,获取数据中心的网元的第一指标数据之后,向用户显示该第一指标数据,用户人工分析第一指标数据之后,确认第一指标数据为故障数据,调取第二指标数据进行人工分析,确认第二指标数据也为故障数据。
[0009]可选地,第一指标数据可以是该网元的在第一时间段的性能数据,第二指标数据可以是该网友在第二时间段的性能数据,第一时间段为第二时间段的子集。
[0010]在一种可能的实现方式中,第一指标数据携带有时间戳;该方法还包括:根据时间戳,确定时间段;确定网元在时间段内的性能数据为第二指标数据。
[0011]也就是说,在该实现方式中,确定时间戳与第一指标数据时间戳相同和相近的指标数据为第二指标数据。
[0012]在一种可能的实现方式中,为第二指标数据设置标签包括:为第二指标数据关联故障标签,故障标签用于表示第二指标数据为对应于故障场景的故障数据。
[0013]也就是说,在该实现方式中,可以为第二指标数据添加对应于故障场景的标签,使得故障检测模型获得正确识别故障场景的能力。
[0014]在一种可能的实现方式中,故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任一种。
[0015]也就是说,在该实现方式中,可以训练故障检测模型识别不同的故障场景,方案的灵活性高。
[0016]在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标数据包含于网元的运行日志。
[0017]也就是说,在该实现方式中,故障检测模型可以根据网元的运行日志中的性能数据进行计算,以识别性能数据是否为故障数据;或者,可以为网元的运行日志中的性能数据设置标签,并用于训练故障检测模型。
[0018]第二方面,本申请实施例提供了一种网络故障分析方法,包括:获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为故障数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为正常数据的能力,第一指标数据是第二指标数据的子集。
[0019]也就是说,在故障检测模型将正常数据识别为故障数据,即故障检测模型识别错误的情况下,可以为与正常数据关联的指标数据设置标签,并使用设置标签后的指标数据对故障检测模型进行训练,使得故障检测模型获得正确识别正常数据的能力,由此,提高了故障检测模型的识别准确率。
[0020]在一种可能的实现方式中,第一指标数据携带有时间戳;方法还包括:根据时间戳,确定时间段;确定网元在时间段内的性能数据为第二指标数据。
[0021]在一种可能的实现方式中,为第二指标数据设置标签包括:为第二指标数据关联正常标签,正常标签用于表示第二指标数据为正常数据。
[0022]在一种可能的实现方式中,故障数据对应故障场景,故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任一种。
[0023]在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标数据包含于网元的运行日志。
[0024]第三方面,本申请实施例提供了一种网络故障分析方法,包括:获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为第一故障数据,第一故障数据对应第一故障场景;为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为第二故障数据的能力,第二故障数据对应第二故障场景,第一故障场景和第二故障场景不同,第一指标数据是第二指标数据的子集。
[0025]也就是说,在故障检测模型将故障场景1的故障数据识别为故障场景2的故障数据,即故障检测模型识别错误的情况下,可以为与故障场景1的故障数据关联的指标数据设
置故障场景1的标签,并使用设置标签后的指标数据对故障检测模型进行训练,使得故障检测模型获得正确识别故障场景1的故障数据的能力,由此,提高了故障检测模型的识别准确率。
[0026]在一种可能的实现方式中,第一指标数据携带有时间戳;方法还包括:根据时间戳,确定时间段;确定网元在时间段内的性能数据为第二指标数据。
[0027]在一种可能的实现方式中,为第二指标数据设置标签包括:为第二指标数据关联故障标签,故障标签对应于第二故障场景。
[0028]在一种可能的实现方式中,第一故障场景和第二故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任意两种的组合。
[0029]在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标数据包含于网元的运行日志。
[0030]第四方面,本申请实施例提供了一种网络故障分析装置,包括:第一获取单元,用于获取用户上报的故障事件;第二获取单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络故障分析方法,其特征在于,包括:获取用户上报的故障事件;获取数据中心的网元的第一指标数据,其中所述第一指标数据与所述故障事件关联,且所述第一指标数据被故障检测模型确认为正常数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为故障数据的能力,所述第一指标数据是所述第二指标数据的子集。2.根据权利要求1所述的方法,其特征在于,所述第一指标数据携带有时间戳;所述方法还包括:根据所述时间戳,确定时间段;确定所述网元在所述时间段内的性能数据为所述第二指标数据。3.根据权利要求1所述的方法,其特征在于,所述为第二指标数据设置标签包括:为所述第二指标数据关联故障标签,所述故障标签用于表示所述第二指标数据为对应于故障场景的故障数据。4.根据权利要求3所述的方法,其特征在于,所述故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任一种。5.根据权利要求1所述的方法,其特征在于,所述第一指标数据包含于所述网元的运行日志,或者,所述第二指标数据包含于所述网元的运行日志。6.一种网络故障分析方法,其特征在于,包括:获取数据中心的网元的第一指标数据,所述第一指标数据被故障检测模型确认为故障数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为正常数据的能力,所述第一指标数据是所述第二指标数据的子集。7.根据权利要求6所述的方法,其特征在于,所述第一指标数据携带有时间戳;所述方法还包括:根据所述时间戳,确定时间段;确定所述网元在所述时间段内的性能数据为所述第二指标数据。8.根据权利要求6所述的方法,其特征在于,所述为第二指标数据设置标签包括:为所述第二指标数据关联正常标签,所述正常标签用于表示所述第二指标数据为正常数据。9.根据权利要求6所述的方法,其特征在于,所述故障数据对应故障场景,所述故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任一种。10.根据权利要求6所述的方法,其特征在于,所述第一指标数据包含于所述网元的运行日志,或者,所述第二指标数据包含于所述网元的运行日志。11.一种网络故障分析方法,其特征在于,包括:获取数据中心的网元的第一指标数据,所述第一指标数据被故障检测模型确认为第一故障数据,所述第一故障数据对应第一故障场景;为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进
行训练,以使得所述故障检测模型获得识别所述第二指标数据为第二故障数据的能力,所述第二故障数据对应第二故障场景,所述第一故障场景和所述第二故障场景不同,所述第一指标数据是所述第二指标数据的子集。12.根据权利要求11所述的方法,其特征在于,所述第一指标数据携带有时间戳;所述方法还包括:根据所述时间戳,确定时间段;确定所述网元在所述时间段内的性能数据为所述第二指标数据。13.根据权利要求11所述的方法,其特征在于,所述为第二指标数据设置标签包括:为所述第二指标数据关联故障标签,所述故障标签对应于所述第二故障场景。14.根据权利要求11所述的方法,其特征在于,所述第一故障场景和所述第二故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任意两种的组合。15.根据权利要求11所述的方法,其特征在于,所述第一指标数据包含于所述网元的运行日志,或者,所述第二指标数据包含于所述网元的运行日志。16.一种网络故障分析装置,其特征在于,包括:第一获取单元,用于获取用户上报的故障事件;第二获取单元,用于获取数据中心的网元的第一指标数据,其中所述第一指标数据与所述故障事件关联,且所述第一指标数据被故障检测模型确认为正常数据;设置单元,用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为故障数据的能力,所述第一指标数据是所述第二指标数据的子集。17.根据权利要求16所述的装置,其特征在于,所述第一指标数据携带有时间戳;所述装置还包括确定单元;所述确定单...

【专利技术属性】
技术研发人员:朱杰
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1