一种网管系统中告警风暴的梯度处理方法技术方案

技术编号:17841706 阅读:40 留言:0更新日期:2018-05-03 21:53
本发明专利技术涉及网络通信领域,提出的网管系统中告警风暴的梯度处理方法包括:采集并将网元的原始告警;对原始告警进行告警格式处理,获得格式统一的告警,其次根据轻微告警过滤规则全局过滤轻微告警,再次将时间异常的告警记载到异常告警数据库并过滤,并在发生告警的网元告警开关开启时将该告警上报至告警服务器;告警服务器接收采集服务器的所有告警,将异常设备告警记载到异常告警数据库并过滤,对于正常设备告警进行个性过滤、瞬告处理、告警关联、预处理后上报集中告警。本发明专利技术的原始告警格式统一化可快速定位设备问题,并通过轻微告警全局过滤、时间异常告警过滤和升板、升级产生的告警过滤共三层阈值来控制正常告警风暴,提高告警的处理效果。

【技术实现步骤摘要】
一种网管系统中告警风暴的梯度处理方法
本专利技术涉及网络通信领域,特别涉及一种网管系统中告警风暴的梯度处理方法。
技术介绍
电信行业中,网元(即网络设备)发生故障时会以告警的形式上报到专业网管,经专业网管处理后再上报集中告警系统派单处理。告警风暴是指:网元或网络设备厂家发生网管异常时,短时间内产生并上报大量告警,造成专业网管的告警服务器阻塞,影响其他网元的告警正常上报。目前解决此问题的方法有:检测告警接口(即采集源)的实时流量,根据告警接口流量判断是否产生告警风暴,如风暴在可控范围内,则将此接口的告警切换至风暴处理通道;如超出可控范围,则直接丢弃风暴告警。申请号为200910244191.5名称为“一种告警风暴的处理方法及处理装置”的中国专利技术申请虽然可以避免监控客户端的告警积压,但仍然存在一些问题:(1)下层网管或者网元的机型很多,但当前每种设备上报的告警格式都不同,维护人员处理起来非常麻烦。(2)以告警接口一分钟内的告警条数与门限阈值做比较来判断告警风暴不够严密。(3)告警风暴产生的原因大致包括:A、网管接口异常,重启后上报历史告警;B、网元或网管升板、升级的情况;C、网元无法自行恢复和压缩,出现故障后频繁告警;D、发生重大网络故障,多个网元同时产生大量告警。上述中国专利技术申请并未针对性解决这几种告警风暴产生的情况。
技术实现思路
本专利技术的实施方式旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的实施方式需要提供一种网管系统中告警风暴的梯度处理方法。本专利技术实施方式的网管系统中告警风暴的梯度处理方法,用于管理网元告警的网管系统与集中告警系统通信连接,其特征在于,网管系统包括采集服务器和告警服务器;采集服务器包括带有采集接口的采集进程和处理进程,采集进程通过采集接口与网元通信连接,告警服务器分别与采集服务器、集中告警系统通信连接;该方法包括:步骤11,采集进程采集并将网元的原始告警发送至处理进程;步骤12,处理进程首先接收原始告警并进行告警格式处理,获得告警格式统一的告警,其次根据预设的轻微告警过滤规则全局过滤轻微告警,再次将时间异常的告警记载到异常告警数据库并过滤,并在发生告警的网元的告警开关不处于关闭状态时将该告警上报至告警服务器;步骤21,告警服务器接收采集服务器的所有告警,将异常设备告警记载到异常告警数据库并过滤,然后将当前未被过滤的告警上报集中告警系统。一种实施方式中,采集服务器包括用于监控采集接口的监控进程,该方法还包括:步骤13,监控进程监控并进行异常情况处理,其中,该异常情况包括采集接口对接的网元的异常情况或采集接口的异常情况;步骤14,监控进程将除被处理的异常情况外的告警发送至告警服务器。一种实施方式中,采集进程通过采集接口对接第一网元,步骤13包括:若监控进程检测到采集接口对接的第一网元的第一标题的告警数据流量超过预设的第一流量阈值时,则监控进程通知处理进程过滤第一网元第一标题的告警。一种实施方式中,集进程通过采集接口对接第二网元,步骤13包括:若监控进程检测到采集接口对接的第二网元的告警数据流量超过预设的第二流量阈值时,则监控进程通知处理进程过滤第二网元的告警。一种实施方式中,步骤13包括:若监控进程检测到采集接口的告警数据流量超过预设的第三流量阈值时,则监控进程通知处理进程过滤该采集接口的告警。一种实施方式中,采集进程通过采集接口对接第四网元,步骤13包括:若监控进程检测到第四网元上报的告警时间异常或该采集接口在预设的第一时间内存在告警时间异常的网元的数量超过预设的第一数量阈值时,则向维护人员发出检查网元的检查通知。一种实施方式中,该方法还包括:步骤31,告警服务器接收正常设备告警。一种实施方式中,该方法还包括:步骤32,告警服务器根据预设的个性化过滤规则对正常设备告警进行过滤。一种实施方式中,步骤32之后该方法还包括:步骤33,告警服务器根据预设的瞬告过滤规则对正常设备告警进行瞬告过滤处理,包括:将在预设的第二时间内可自动恢复的告警作为瞬时告警过滤,但网元在预设的第三时间内的同类瞬时告警超过预设的第二阈值数量,则将该同类瞬时告警汇总不过滤;其中,第三时间大于第二时间。一种实施方式中,步骤33之后该方法还包括:步骤34,告警服务器将符合映射关系的告警进行告警关联,将关联的告警中优先级最高的告警作为主告警并将除最高优先级之外的其他告警作为主告警的附加内容,并进行网元常见故障的告警预处理后再由告警服务器上报告警至集中告警系统;其中,常见故障的告警预处理包括:告警服务器确认网元的状态不正常时,对该状态不正常的网元先进行闭塞处理再进行解闭塞处理,然后确认网元的状态恢复为正常时,对状态不正常的网元对应的告警进行过滤。本专利技术实施方式的网管系统中告警风暴的梯度处理方法,将网元的原始告警格式统一化,可以方便维护人员快速定位发生告警的设备的问题,然后借由时间异常告警过滤处理非重大故障引起的下层网管重启后上报的大量历史告警,对于升板、升级产生的告警风暴可以通过网元的告警开关状态确认来解决,提高告警风暴的处理效果。本专利技术的附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的实施方式的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:图1是本专利技术实施方式的网管系统的组成示意图;图2是本专利技术实施方式的网管系统中告警风暴的梯度处理方法的一个流程示意图;图3是本专利技术实施方式的网管系统中告警风暴的梯度处理方法的另一个流程示意图。具体实施方式下面详细描述本专利技术的实施方式,实施方式的示例在附图中示出,其中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅可用于解释本专利技术的实施方式,而不能理解为对本专利技术的实施方式的限制。请参阅图1和图2,图1是本专利技术实施方式的网管系统的组成示意图,图2是本专利技术实施方式的网管系统中告警风暴的梯度处理方法的一个流程示意图。本专利技术实施方式中,网管系统用于管理网元告警,网管系统与集中告警系统通信连接,网管系统包括采集服务器和告警服务器;采集服务器包括带有采集接口的采集进程和处理进程,采集进程通过采集接口与网元通信连接,告警服务器分别与采集服务器、集中告警系统通信连接。该实施方式中,网管系统中告警风暴的梯度处理方法包括:步骤11,采集进程采集并将网元的原始告警发送至处理进程。采集进程负责与网元对接,采集并完成原始告警的存储,同时将采集的原始告警发送至处理进程。步骤12,处理进程首先接收原始告警并进行告警格式处理,获得告警格式统一的告警,其次根据预设的轻微告警过滤规则全局过滤轻微告警,再次将时间异常的告警进行过滤入库,并在发生告警的网元的告警开关不处于关闭状态时将该告警上报至告警服务器。步骤21,告警服务器接收采集服务器发送的告警,将异常设备告警记载到异常告警数据库,然后确定是否将告警上报集中告警系统。在步骤12中,处理进程收到原始告警后,首先对原始告警进行告警格式处理,获得告警格式统一的告警。当前下层的网管或者网元的机型很多,每种设备上报带告警格式都不同。本实施方式中告警格式处理将告警相关参数统一化,告警参数通常包括:网络类本文档来自技高网...
一种网管系统中告警风暴的梯度处理方法

【技术保护点】
一种网管系统中告警风暴的梯度处理方法,用于管理网元告警的网管系统与集中告警系统通信连接,其特征在于,网管系统包括采集服务器和告警服务器;采集服务器包括带有采集接口的采集进程和处理进程,采集进程通过采集接口与网元通信连接,告警服务器分别与采集服务器、集中告警系统通信连接;该方法包括:步骤11,采集进程采集并将网元的原始告警发送至处理进程;步骤12,处理进程首先接收原始告警并进行告警格式处理,获得告警格式统一的告警,其次根据预设的轻微告警过滤规则全局过滤轻微告警,再次将时间异常的告警记载到异常告警数据库并过滤,并在发生告警的网元的告警开关不处于关闭状态时将该告警上报至告警服务器;步骤21,告警服务器接收采集服务器发送的告警,将异常设备告警记载到异常告警数据库并过滤,然后将当前未被过滤的告警上报集中告警系统。

【技术特征摘要】
1.一种网管系统中告警风暴的梯度处理方法,用于管理网元告警的网管系统与集中告警系统通信连接,其特征在于,网管系统包括采集服务器和告警服务器;采集服务器包括带有采集接口的采集进程和处理进程,采集进程通过采集接口与网元通信连接,告警服务器分别与采集服务器、集中告警系统通信连接;该方法包括:步骤11,采集进程采集并将网元的原始告警发送至处理进程;步骤12,处理进程首先接收原始告警并进行告警格式处理,获得告警格式统一的告警,其次根据预设的轻微告警过滤规则全局过滤轻微告警,再次将时间异常的告警记载到异常告警数据库并过滤,并在发生告警的网元的告警开关不处于关闭状态时将该告警上报至告警服务器;步骤21,告警服务器接收采集服务器发送的告警,将异常设备告警记载到异常告警数据库并过滤,然后将当前未被过滤的告警上报集中告警系统。2.如权利要求1所述的网管系统中告警风暴的梯度处理方法,其特征在于,采集服务器包括用于监控采集接口的监控进程,该方法还包括:步骤13,监控进程监控并进行异常情况处理,其中,该异常情况包括采集接口对接的网元的异常情况或采集接口的异常情况;步骤14,监控进程将未被处理的剩余告警发送至告警服务器。3.如权利要求2所述的网管系统中告警风暴的梯度处理方法,其特征在于,采集进程通过采集接口对接第一网元,步骤13包括:若监控进程检测到采集接口对接的第一网元的第一标题的告警数据流量超过预设的第一流量阈值时,则监控进程通知处理进程过滤第一网元第一标题的告警。4.如权利要求2所述的网管系统中告警风暴的梯度处理方法,其特征在于,采集进程通过采集接口对接第二网元,步骤13包括:若监控进程检测到采集接口对接的第二网元的告警数据流量超过预设的第二流量阈值时,则监控进程通知处理进程过滤第二网元的告警。5.如权利要求2所述的网管系统中告警风暴的梯...

【专利技术属性】
技术研发人员:龙世英张刚印
申请(专利权)人:斯凯文软件技术广东有限公司
类型:发明
国别省市:广东,44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1