一种基于云服务平台的告警匹配处理的实现方法技术

技术编号:25958238 阅读:50 留言:0更新日期:2020-10-17 03:50
本发明专利技术特别涉及一种基于云服务平台的告警匹配处理的实现方法。该基于云服务平台的告警匹配处理的实现方法,通过API接口将云服务平台多个现场的数据进行收集处理,并将告警数据推送的消息队列中;系统在处理告警时,一方面将告警数据实时更新到告警的展示页面,另一方面,根据告警的严重程度采取不同的处理策略。该基于云服务平台的告警匹配处理的实现方法,实现了告警处理流程的标准化、流程化、自动化、专业化,能够避免重复建设、资源浪费,极大的缩短了告警消息从出现到结束的周期,大大节省了运维人员处理故障的时间,降低了运维的成本,提高了企业的产品竞争力。

【技术实现步骤摘要】
一种基于云服务平台的告警匹配处理的实现方法
本专利技术涉及云服务
,特别涉及一种基于云服务平台的告警匹配处理的实现方法。
技术介绍
随着系统功能越来越完善,随着时间的迁移,整个系统会越来越复杂,监控的数据量会变得越来越庞大。在这种情况下,运维人员很难通过人工巡检的方式来查看所有的故障异常,也很难通过人工去及时有效的发现及处理系统的异常。随着政府云服务在越来越多的地市落地,大量并且重复的告警消息会时有发生,不断的重复处理这些告警消息也极大的浪费运维人员的人力成本。根据云服务的运行场景,将告警级别标准化,基于告警的严重程度划分为五个级别:警告、一般、次要、主要、严重。级别标准化的目的是为了统一,但是不同厂家在告警级别上的理解差异,比如a厂家的严重,可能是标准中的主要;而b厂家的主要,可能是标准中的严重。另外一些厂家或采集的数据源,可能没有标准的级别标志,需要通过对应关系,实现级别的对应。基于上述问题,本专利技术提出了一种基于云服务平台的告警匹配处理的实现方法,旨在
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于云服务平台的告警匹配处理的实现方法。本专利技术是通过如下技术方案实现的:一种基于云服务平台的告警匹配处理的实现方法,其特征在于:包括以下步骤:第一步,通过API接口将云服务平台多个现场的数据进行收集处理,并将告警数据推送的消息队列中;同时,为防止消息队列出现连接中断而导致告警遗漏的事情发生,当连接失败时,将告警数据持久化到数据库中,从而保证告警数据全部采集到系统中;第二步,系统在处理告警时,一方面将告警数据实时更新到告警的展示页面,另一方面,根据告警的严重程度采取不同的处理策略;首先,根据运维人员录入的告警处理规则对告警数据进行诊断匹配,能够通过系统自动处理的,直接通过系统内执行对应的脚本命令自动解决,防止告警问题的重复解决;不能通过系统处理的,系统根据制定的规则将告警消息分类前转(派发邮件、发工单),由人工进行处理。所述第一步中,告警数据来源包括基础资源(宿主机、交换机等),服务产品(云服务器、云硬盘等),虚拟化(OpenStack、Ceph等),应用以及中间件生成的告警。所述第一步中,为各个告警源提供统一的告警转发API接口,各告警源调用该API接口传入告警对象;然后,该API接口将收到的告警对象转为统一格式的告警消息串,并转发给KafKa消息队列(eventFrom队列);当KafKa消息队列转发失败时,该API接口将告警消息存入持久层数据库中。在告警数据庞大的系统中,为了避免出现处理速度达不到告警产生的速度,增加KafKa消息队列(eventFrom队列)作为数据缓冲区,能极大的减少系统的压力。所述第二步中,告警处理模块通过监听KafKa消息队列(eventFrom队列)实时获取并处理告警消息,然后将实时的将处理完的告警消息再次推送给kafka消息队列;系统中的web应用监听KafKa消息队列(eventFrom队列),利用websocket将处理完毕的告警消息实时的广播到系统web应用的前台页面。所述第二步中,告警处理模块处理告警消息,包括以下步骤:1)SpoutA监听KafKa消息队列(eventFrom队列)实时接收告警,同时轮询待处理告警表获取未处理的告警,然后经过预处理,发送给BoltA节点行下一步的处理;2)BoltA节点依次对接收到的告警消息执行告警过滤,告警级别标准化,告警类型重定义和告警清除,然后判断告警消息是否满足频次规则,如果满足则发送给BoltB节点做频次关联,如果不满足则发送给BoltC节点做进一步的处理;3)BoltB节点对接收到的告警做频次关联处理,并将主告警发送给BoltC节点;4)BoltC节点将接收到的告警消息依次执行自动处理,告警派单和工单关闭流程,最后将告警转发给Kafka消息队列(eventTo队列);5)SpoutB加载规则更新日志表,并根据规则更新的记录,将规则更新消息(新增规则、修改规则、删除规则)转发给BoltA,BoltB和BoltC三个节点,BoltA,BoltB和BoltC节点根据消息内容,重新加载或删除各自的规则。所述SpoutA和SpoutB是两个独立的进程,BoltA,BoltB和BoltC节点各自启动2~3个进程,总进程数会达到10个左右;从SpoutA到BoltA节点的消息转发,执行shuffle策略,即保证每一个BoltA节点会接收到数量相等的告警消息,从BoltA节点到BoltC节点,从BoltB节点到BoltC节点的消息转发也为shuffle策略;从BoltA节点到BoltB节点的消息转发执行field策略,即具有同一个关键字的告警消息都转发给同一个BoltB节点处理,本系统定义的关键字即为告警规则的ID;从SpoutB到BoltA,BoltB好BoltC节点的消息转发执行all策略,即同一个规则更新消息会广播给所有的下级节点。因为高并发的条件下,告警数据会井喷式增长,使用storm可以进行快速的处理,避免告警数据的过度堆积。所述第二步中,利用storm监控推送到kafka的告警数据,根据前台配置的告警规则对告警消息进行标准化,频次关联,告警入库,自动处理或自动派单处理流程;此后,若告警消息需要转发前台,则将告警消息转发给KafKa消息队列(eventTo队列)。所述第二步中,利用Flume日志收集系统采集syslog日志,并封装为告警对象,再调用告警转发API接口。所述第二步中,对于满足延时清除规则的告警消息,通过定时任务执行延时清除,并把清除通知直接发送给KafKa消息队列(eventTo队列);对于事件、劣化、通知等不影响业务运行的告警消息,则通过定时任务执行清除操作,并把清除通知直接发送给KafKa消息队列(eventTo队列)。本专利技术的有益效果是:该基于云服务平台的告警匹配处理的实现方法,实现了告警处理流程的标准化、流程化、自动化、专业化,能够避免重复建设、资源浪费,极大的缩短了告警消息从出现到结束的周期,大大节省了运维人员处理故障的时间,降低了运维的成本,提高了企业的产品竞争力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图1为本专利技术基于云服务平台的告警匹配处理的实现方法示意图。附图2为本专利技术告警处理模块处理告警消息的流程示意图。具体实施方式为了使本
的人员更好的理解本专利技术中的技术方案,下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,本文档来自技高网
...

【技术保护点】
1.一种基于云服务平台的告警匹配处理的实现方法,其特征在于,包括以下步骤:/n包括以下步骤:/n第一步,通过API接口将云服务平台多个现场的数据进行收集处理,并将告警数据推送的消息队列中;/n同时,为防止消息队列出现连接中断而导致告警遗漏的事情发生,当连接失败时,将告警数据持久化到数据库中,从而保证告警数据全部采集到系统中;/n第二步,系统在处理告警时,一方面将告警数据实时更新到告警的展示页面,另一方面,根据告警的严重程度采取不同的处理策略;/n首先,根据运维人员录入的告警处理规则对告警数据进行诊断匹配,能够通过系统自动处理的,直接通过系统内执行对应的脚本命令自动解决,防止告警问题的重复解决;不能通过系统处理的,系统根据制定的规则将告警消息分类前转(派发邮件、发工单),由人工进行处理。/n

【技术特征摘要】
1.一种基于云服务平台的告警匹配处理的实现方法,其特征在于,包括以下步骤:
包括以下步骤:
第一步,通过API接口将云服务平台多个现场的数据进行收集处理,并将告警数据推送的消息队列中;
同时,为防止消息队列出现连接中断而导致告警遗漏的事情发生,当连接失败时,将告警数据持久化到数据库中,从而保证告警数据全部采集到系统中;
第二步,系统在处理告警时,一方面将告警数据实时更新到告警的展示页面,另一方面,根据告警的严重程度采取不同的处理策略;
首先,根据运维人员录入的告警处理规则对告警数据进行诊断匹配,能够通过系统自动处理的,直接通过系统内执行对应的脚本命令自动解决,防止告警问题的重复解决;不能通过系统处理的,系统根据制定的规则将告警消息分类前转(派发邮件、发工单),由人工进行处理。


2.根据权利要求1所述的基于云服务平台的告警匹配处理的实现方法,其特征在于:所述第一步中,告警数据来源包括基础资源,服务产品,虚拟化,应用以及中间件生成的告警。


3.根据权利要求1或2所述的基于云服务平台的告警匹配处理的实现方法,其特征在于:所述第一步中,为各个告警源提供统一的告警转发API接口,各告警源调用该API接口传入告警对象;然后,该API接口将收到的告警对象转为统一格式的告警消息串,并转发给KafKa消息队列;
当KafKa消息队列转发失败时,该API接口将告警消息存入持久层数据库中。


4.根据权利要求3所述的基于云服务平台的告警匹配处理的实现方法,其特征在于:所述第二步中,告警处理模块通过监听KafKa消息队列实时获取并处理告警消息,然后将实时的将处理完的告警消息再次推送给kafka消息队列;
系统中的web应用监听KafKa消息队列,利用websocket将处理完毕的告警消息实时的广播到系统web应用的前台页面。


5.根据权利要求4所述的基于云服务平台的告警匹配处理的实现方法,其特征在于:所述第二步中,告警处理模块处理告警消息,包括以下步骤:
1)SpoutA监听KafKa消息队列实时接收告警,同时轮询待处理告警表获取未处理的告警,然后经过预处理,发送给BoltA节点行下一步的处理;
2)BoltA节点依次对接收到的告警消息执行告警过滤,告警级别标准化,告警类型重定...

【专利技术属性】
技术研发人员:陆世建
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1