一种监控和告警的方法和系统技术方案

技术编号:17307365 阅读:14 留言:0更新日期:2018-02-19 04:17
本发明专利技术公开了一种监控与告警的方法和系统。该方法包括:步骤1,确定一个或多个运行模块的多个被监控的指标中的异常指标,并记录所确定的各异常指标的信息;步骤2,基于一异常指标的信息确定与该异常指标相关联的指标,并基于该异常指标和所述相关联的指标,确定该异常指标出现的原因;步骤3,基于所确定的异常指标出现的原因进行相应的告警。采用该方法和系统使得可以快速定位问题发生原因与影响范围。

A method and system for monitoring and warning

The invention discloses a method and system for monitoring and warning. The method includes: Step 1, determine the anomaly index of a plurality of monitored indexes of one or more operation module in, and recording the abnormal index determined by information; step 2, an anomaly index is determined by the information associated with the stock index based on the anomaly index, and based on the associated anomaly index and the index, determine the cause of the abnormal index; step 3, the causes of the abnormal alarm index determined based on. By using this method and system, the cause and influence range of the problem can be quickly located.

【技术实现步骤摘要】
一种监控和告警的方法和系统
本专利技术涉及互联网领域,尤其涉及一种监控和告警的方法和系统。
技术介绍
云服务提供商往往会存在众多的监控项以及不同的运营平台,每个监控项以及运营平台之间都存在着互相影响或彼此依赖的关系。每一个技术指标的恶化都会带来连锁反应,最终导致服务异常。如何能在众多的监控数据中快速定位到相关异常指标,以及如何能在某一个指标趋势异常时,自动将其他可能相互依赖的指标进行预警成为关键。现有技术中对监控和告警的处理方式为对每个设备、每个监控指标独立告警,出现告警后,运维人员独立处理每项告警。即,现有的监控技术对每个业务指标的监控均是独立监控,此监控方式通常对每个监控指标指定独立的告警阈值,当监控指标的数据超过阈值时,将该项指标错误信息上报给相关运营维护人员进行处理。采用这种独立监控方法的现有技术存在如下缺点:(1)所有的监控项目彼此独立,当某个指标不达标时,运维人员只会单独对该项指标进行处理,但进行处理的指标未必是问题的根源;(2)当应用场景较多时,单独告警容易存在监控死角,未进行监控关联的应用场景有可能无法得到及时的处理,从而导致异常持续发生;(3)对每个监控项独立处理,无法从宏观角度对问题进行汇聚,容易使处理人员将大量人力精力耗费在处理重复产生的告警信息当中。现有的这种处理方式导致运维人员疲于处理每个独立告警,像一个救火员似的寻找并扑灭每个火星,却没办法及时从根源上解决故障,效率极其低下。因此,需要一种高效地对系统进行监控和告警的方法和系统。
技术实现思路
为了解决现有技术中对系统进行监控和告警的问题,提出了一种监控和告警的方法和系统。根据本专利技术的一个方面,提供了一种监控与告警的方法,所述方法包括:步骤1,确定一个或多个运行模块的多个被监控的指标中的异常指标,并记录所确定的各异常指标的信息;步骤2,基于一异常指标的信息确定与该异常指标相关联的指标,并基于该异常指标和所述相关联的指标,确定该异常指标出现的原因;步骤3,基于所确定的异常指标出现的原因进行相应的告警。其中,所述步骤2中确定一异常指标的相关联的指标至少包括下述方式之一:方式一,提取该异常指标的信息中的出现时间,将出现在该出现时间前第一时间段至该出现时间后第二时间段之间的异常指标确定为与该异常指标相关联的指标;方式二,提取该异常指标的信息中的所属运行模块和出现时间,将出现在该出现时间前第三时间段至该出现时间后第四时间段之间且属于该运行模块的其他异常指标和接近异常的指标确定为与该异常指标相关联的指标。其中,所述步骤2中基于该异常指标和所述相关联的指标确定该异常指标出现的原因包括:若采用所述方式一确定相关联的异常指标,基于该异常指标和相关联的指标的出现时间的先后,确定导致最先异常指标出现的原因为该异常指标出现的原因;若采用所述方式二确定相关联的异常指标,分析该异常指标与相关联的指标之间的关系,如果该异常指标是由相关联的指标引起,则基于相关联的指标的出现时间的先后,确定导致最先相关联指标出现的原因为该异常指标出现的原因,如果该异常指标不是由相关联的指标引起,则基于该异常指标和相关联的指标的出现时间的先后,确定导致最先异常指标或接近异常的指标出现的原因为该异常指标出现的原因。其中,所述步骤2中基于该异常指标和所述相关联的指标确定该异常指标出现的原因包括:在已存储的异常原因集合中查找与该异常指标和所述相关联的指标匹配的异常原因;所述方法还包括在所述步骤2之后,所述步骤3之前执行:判断该异常指标、所述相关联的指标和该异常指标出现的原因是否存在于已存储的异常原因集合中,若没有,则将该异常指标、所述相关联的指标和该异常指标出现的原因存储到所述异常原因集合中。其中,所述步骤1还包括:所述步骤1还包括:对一个或多个处理模块的多个被监控的指标进行监控,并获取各处理模块中每个被监控的指标的数值;判断各被监控的指标的数值是否满足相应的第一条件,并将数值不满足相应的第一条件的被监控的指标确定为异常指标;所述步骤2还包括:若通过所述方式二确定一异常指标的相关联的指标,判断各被监控的指标的数值是否满足相应的第二条件,并将数值不满足相应的第二条件的被监控的指标确定为接近异常的指标。其中,所述步骤3还包括:基于该异常指标所属运行模块的使用记录,确定设定时间段内使用该异常指标所属运行模块的使用者,并向所述使用者进行告警。根据本专利技术的另一方面,还提供了一种监控和告警的系统,所述系统包括:异常指标确定模块,用于确定一个或多个运行模块的多个被监控的指标中的异常指标,并记录所确定的各异常指标的信息;关联指标确定模块,用于基于一异常指标的信息确定与该异常指标相关联的指标;异常原因确定模块,用于基于该异常指标和所述相关联的指标,确定该异常指标出现的原因;告警模块,用于基于所确定的异常指标出现的原因进行相应的告警。其中,所述关联指标确定模块还用于通过下述方式中至少一种确定一异常指标的相关联的指标:方式一,提取该异常指标的信息中的出现时间,将出现在该出现时间前第一时间段至该出现时间后第二时间段之间的异常指标确定为与该异常指标相关联的指标;方式二,提取该异常指标的信息中的所属运行模块和出现时间,将出现在该出现时间前第三时间段至该出现时间后第四时间段之间且属于该运行模块的其他异常指标和接近异常的指标确定为与该异常指标相关联的指标。其中,异常原因确定模块还用于通过下述方式确定该异常指标出现的原因:若采用所述方式一确定相关联的异常指标,基于该异常指标和相关联的指标的出现时间的先后,确定导致最先异常指标出现的原因为该异常指标出现的原因;若采用所述方式二确定相关联的异常指标,分析该异常指标与相关联的指标之间的关系,如果该异常指标是由相关联的指标引起,则基于相关联的指标的出现时间的先后,确定导致最先相关联指标出现的原因为该异常指标出现的原因,如果该异常指标不是由相关联的指标引起,则基于该异常指标和相关联的指标的出现时间的先后,确定导致最先异常指标或接近异常的指标出现的原因为该异常指标出现的原因。其中,异常原因确定模块还用于采用下述方式确定该异常指标出现的原因:在已存储的异常原因集合中查找与该异常指标和所述相关联的指标匹配的异常原因;所述系统还包括:第一判断模块,用于判断该异常指标、所述相关联的指标和该异常指标出现的原因是否存在于已存储的异常原因集合中,若没有,则将该异常指标、所述相关联的指标和该异常指标出现的原因存储到所述异常原因集合中。其中,异常指标确定模块还用于:对一个或多个处理模块的多个被监控的指标进行监控,并获取各处理模块中每个被监控的指标的数值;判断各被监控的指标的数值是否满足相应的第一条件,并将数值不满足相应的第一条件的被监控的指标确定为异常指标;若通过所述方式二确定一异常指标的相关联的指标,判断各被监控的指标的数值是否满足相应的第二条件,并将数值不满足相应的第二条件的被监控的指标确定为接近异常的指标。其中,所述告警模块还用于:基于该异常指标所属运行模块的使用记录,确定设定时间段内使用该异常指标所属运行模块的使用者,并向所述使用者进行告警。本专利技术的监控和告警方法和系统,通过对异常指标的相关联指标进行分析,以确定导致异常指标的原因,从而将多种异常指标组合起来进行分析。因此,本专利技术的本文档来自技高网...
一种监控和告警的方法和系统

【技术保护点】
一种监控与告警的方法,其特征在于,所述方法包括:步骤1,确定一个或多个运行模块的多个被监控的指标中的异常指标,并记录所确定的各异常指标的信息;步骤2,基于一异常指标的信息确定与该异常指标相关联的指标,并基于该异常指标和所述相关联的指标,确定该异常指标出现的原因;步骤3,基于所确定的异常指标出现的原因进行相应的告警。

【技术特征摘要】
1.一种监控与告警的方法,其特征在于,所述方法包括:步骤1,确定一个或多个运行模块的多个被监控的指标中的异常指标,并记录所确定的各异常指标的信息;步骤2,基于一异常指标的信息确定与该异常指标相关联的指标,并基于该异常指标和所述相关联的指标,确定该异常指标出现的原因;步骤3,基于所确定的异常指标出现的原因进行相应的告警。2.如权利要求1所述的方法,其特征在于,所述步骤2中确定一异常指标的相关联的指标至少包括下述方式之一:方式一,提取该异常指标的信息中的出现时间,将出现在该出现时间前第一时间段至该出现时间后第二时间段之间的异常指标确定为与该异常指标相关联的指标;方式二,提取该异常指标的信息中的所属运行模块和出现时间,将出现在该出现时间前第三时间段至该出现时间后第四时间段之间且属于该运行模块的其他异常指标和接近异常的指标确定为与该异常指标相关联的指标。3.如权利要求2所述的方法,其特征在于,所述步骤2中基于该异常指标和所述相关联的指标确定该异常指标出现的原因包括:若采用所述方式一确定相关联的异常指标,基于该异常指标和相关联的指标的出现时间的先后,确定导致最先异常指标出现的原因为该异常指标出现的原因;若采用所述方式二确定相关联的异常指标,分析该异常指标与相关联的指标之间的关系,如果该异常指标是由相关联的指标引起,则基于相关联的指标的出现时间的先后,确定导致最先相关联指标出现的原因为该异常指标出现的原因,如果该异常指标不是由相关联的指标引起,则基于该异常指标和相关联的指标的出现时间的先后,确定导致最先异常指标或接近异常的指标出现的原因为该异常指标出现的原因。4.如权利要求2所述的方法,其特征在于,所述步骤2中基于该异常指标和所述相关联的指标确定该异常指标出现的原因包括:在已存储的异常原因集合中查找与该异常指标和所述相关联的指标匹配的异常原因;所述方法还包括在所述步骤2之后,所述步骤3之前执行:判断该异常指标、所述相关联的指标和该异常指标出现的原因是否存在于已存储的异常原因集合中,若没有,则将该异常指标、所述相关联的指标和该异常指标出现的原因存储到所述异常原因集合中。5.如权利要求2所述的方法,其特征在于,所述步骤1还包括:对一个或多个处理模块的多个被监控的指标进行监控,并获取各处理模块中每个被监控的指标的数值;判断各被监控的指标的数值是否满足相应的第一条件,并将数值不满足相应的第一条件的被监控的指标确定为异常指标;所述步骤2还包括:若通过所述方式二确定一异常指标的相关联的指标,判断各被监控的指标的数值是否满足相应的第二条件,并将数值不满足相应的第二条件的被监控的指标确定为接近异常的指标。6.如权利要求1所述的方法,其特征在于,所述步骤3还包括:基于该异常指标所属运行模块的使用记录,确定设定时间段内使用该异常指标所属运行模块的使用者,并向所述使用者进行告警。7.一种...

【专利技术属性】
技术研发人员:王景春苗辉
申请(专利权)人:贵州白山云科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1