【技术实现步骤摘要】
网络故障分析方法及装置
[0001]本申请涉及通信
,具体涉及一种网络故障分析方法及装置。
技术介绍
[0002]在传统数据中心的网络运维中,专门运维人员在站点进行值守,通过实时监控网络设备的多项独立关键指标。然后,由相关运维专家,基于监控得到的关键指标来判断网络是否出现问题,并借助专业复杂的工具(如抓包,包染色等)来人工进行故障节点判断。由于软件定义网络(software defined network,SDN)覆盖设备面广,指标多,拓扑复杂,人工分析效率低,对人员的技能要求高。若采用传统的运维方案,难以在第一时间对SDN进行故障定界。
[0003]随着机器学习的技术成熟度日渐提升,可以很好的处理多维度指标间的关联性分析,已经逐渐被用在复杂度较高的网络故障排查。
[0004]现有的基于机器学习的网络故障排除方案,基于已采集的故障数据进行离线模型训练,然后投入到现网中使用。由于已采集的故障数据有限,难以覆盖现网中的各种情况,可能会出现故障识别过于敏感或迟钝等问题。
技术实现思路
[0005]本申请实施例提供了一种网络故障分析方法及装置,在故障检测模型上线使用过程中,可以对故障检测模型进行增量训练,实现了故障检测模型的边使用边更新,使得故障检测模型的识别准确率越来越高。
[0006]第一方面,本申请实施例提供了一种网络故障分析方法,包括:获取用户上报的故障事件;获取数据中心的网元的第一指标数据,其中第一指标数据与故障事件关联,且第一指标数据被故障检测模型确认为正常数据;为第 ...
【技术保护点】
【技术特征摘要】
1.一种网络故障分析方法,其特征在于,包括:获取用户上报的故障事件;获取数据中心的网元的第一指标数据,其中所述第一指标数据与所述故障事件关联,且所述第一指标数据被故障检测模型确认为正常数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为故障数据的能力,所述第一指标数据是所述第二指标数据的子集。2.根据权利要求1所述的方法,其特征在于,所述第一指标数据携带有时间戳;所述方法还包括:根据所述时间戳,确定时间段;确定所述网元在所述时间段内的性能数据为所述第二指标数据。3.根据权利要求1所述的方法,其特征在于,所述为第二指标数据设置标签包括:为所述第二指标数据关联故障标签,所述故障标签用于表示所述第二指标数据为对应于故障场景的故障数据。4.根据权利要求3所述的方法,其特征在于,所述故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任一种。5.根据权利要求1所述的方法,其特征在于,所述第一指标数据包含于所述网元的运行日志,或者,所述第二指标数据包含于所述网元的运行日志。6.一种网络故障分析方法,其特征在于,包括:获取数据中心的网元的第一指标数据,所述第一指标数据被故障检测模型确认为故障数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为正常数据的能力,所述第一指标数据是所述第二指标数据的子集。7.根据权利要求6所述的方法,其特征在于,所述第一指标数据携带有时间戳;所述方法还包括:根据所述时间戳,确定时间段;确定所述网元在所述时间段内的性能数据为所述第二指标数据。8.根据权利要求6所述的方法,其特征在于,所述为第二指标数据设置标签包括:为所述第二指标数据关联正常标签,所述正常标签用于表示所述第二指标数据为正常数据。9.根据权利要求6所述的方法,其特征在于,所述故障数据对应故障场景,所述故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任一种。10.根据权利要求6所述的方法,其特征在于,所述第一指标数据包含于所述网元的运行日志,或者,所述第二指标数据包含于所述网元的运行日志。11.一种网络故障分析方法,其特征在于,包括:获取数据中心的网元的第一指标数据,所述第一指标数据被故障检测模型确认为第一故障数据,所述第一故障数据对应第一故障场景;为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进
行训练,以使得所述故障检测模型获得识别所述第二指标数据为第二故障数据的能力,所述第二故障数据对应第二故障场景,所述第一故障场景和所述第二故障场景不同,所述第一指标数据是所述第二指标数据的子集。12.根据权利要求11所述的方法,其特征在于,所述第一指标数据携带有时间戳;所述方法还包括:根据所述时间戳,确定时间段;确定所述网元在所述时间段内的性能数据为所述第二指标数据。13.根据权利要求11所述的方法,其特征在于,所述为第二指标数据设置标签包括:为所述第二指标数据关联故障标签,所述故障标签对应于所述第二故障场景。14.根据权利要求11所述的方法,其特征在于,所述第一故障场景和所述第二故障场景为中央处理器(CPU)占用率高、流量突增、小包攻击、开源虚拟交换机(OVS)流表丢失中的任意两种的组合。15.根据权利要求11所述的方法,其特征在于,所述第一指标数据包含于所述网元的运行日志,或者,所述第二指标数据包含于所述网元的运行日志。16.一种网络故障分析装置,其特征在于,包括:第一获取单元,用于获取用户上报的故障事件;第二获取单元,用于获取数据中心的网元的第一指标数据,其中所述第一指标数据与所述故障事件关联,且所述第一指标数据被故障检测模型确认为正常数据;设置单元,用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为故障数据的能力,所述第一指标数据是所述第二指标数据的子集。17.根据权利要求16所述的装置,其特征在于,所述第一指标数据携带有时间戳;所述装置还包括确定单元;所述确定单...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。