【技术实现步骤摘要】
一种监控报警方法和装置
[0001]本申请属于计算机
,具体涉及一种监控报警方法和装置。
技术介绍
[0002]在企业SAAS(Software
‑
As
‑
A
‑
Service,软件即服务)平台的生产运营中,首要职责便是对外保证高并发、高性能、高可用性的业务能力,但往往一家成熟的SAAS平台架构是十分复杂的,带来的运维工作也是十分复杂、庞大的,假如SAAS平台突发故障导致无法对外提供正常的业务服务,除了经济上的损失之外,更多的损失是对SAAS平台以及对企业信誉的损失。因此,对于包括但不限于SAAS平台系统的统计监控预警是必不可少的,统计数据既可以作为业务上的数据抓手,又可以为线上运营提供报警能力,同时预警系统可以尽早感知生产问题,分析问题,解决问题。
[0003]目前,市场上的SAAS平台的监控预警系统可以实现简单的业务系统报警,但需要计算的数据量比较大,因而工作复杂且容易出错。
[0004]申请内容
[0005]本申请实施例的目的是提供一种 ...
【技术保护点】
【技术特征摘要】
1.一种监控报警方法,其特征在于,包括以下步骤:通过消息队列收集各个业务服务上报的业务数据,并根据所述业务数据计算单位时间内的统计元数据;基于所述统计元数据,实时统计多个单位时间维度内的多个监控指标的统计结果,所述多个监控指标包括请求总数、请求失败总数、失败平均响应时长和成功平均响应时长;根据所述统计结果,确定是否发送报警通知。2.根据权利要求1所述的方法,其特征在于,所述多个单位时间维度包括第一窗口时间和第二窗口时间,且所述第一窗口时间小于所述第二窗口时间,所述第一窗口时间和所述第二窗口时间具有相同的窗口右边界和不同的窗口左边界;所述根据所述统计结果,确定是否发送报警通知,具体包括:在所述第一窗口时间内的失败平均响应时长与所述第二窗口时间内的失败平均响应时长的比值大于预设阈值的情况下,确定需要发送报警通知。3.根据权利要求2所述的方法,其特征在于,所述根据所述统计结果,确定是否发送报警通知,具体包括:在所述第一窗口时间内的失败平均响应时长与所述第二窗口时间内的失败平均响应时长的比值小于预设阈值的情况下,确定不需要发送报警通知。4.根据权利要求1所述的方法,其特征在于,所述根据所述统计结果,确定是否发送报警通知,具体包括:根据各个单位时间维度内的各个监控指标的统计结果的变化趋势,以及各个监控指标的权重,计算各个监控指标的加权趋势值;在所述加权趋势值大于预设阈值的情况下,确定需要发送报警通知。5.根据权利要求1所述的方法,其特征在于,还包括:根据各个接口对应的多个监控指标的统计结果以及各个监控指标的权重,分别计算各个接口的故障值;对各个接口的故障值进行排序,并根据排序结果确定发生故...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。