【技术实现步骤摘要】
一种监控报警管理系统、方法、计算机设备及存储介质
[0001]本申请涉及运维服务领域,更具体地说,涉及一种监控报警管理系统、方法、计算机设备及存储介质。
技术介绍
[0002]大型公司的信息化平台涉及的项目多,使用的服务器数量也多。业务量大时,每次新项目上线的服务器及下线的旧服务器会到达几十台甚至更多,运维人员需要手动注册新服务器,注销旧服务器,工作量繁重。
[0003]由于应用众多,运维人员及研发人员每天都会收到海量的报警,使得相关人员很难从众多报警中真正定位有价值的报警信息。不同的应用有不同的场景造成不同时间段报警阈值均会不同,但传统的监控报警系统无法按时间段匹配应用特点报警,同时复杂的配置文件及报警规则不方便维护人员的配置。
[0004]如图1所示,现有监控报警管理系统的架构往往采用prometheus+consul+alertmanager的结构。prometheus通过拉取方式从每台服务器收集数据存入时序数据库,对历史数据做聚合处理节省存储空间,降低查询延迟,提高查询并发。因此对于海量的监控数据其性 ...
【技术保护点】
【技术特征摘要】
1.一种监控报警管理系统,其特征在于,所述系统包括:预测故障模块,用于通过分析历史运维日志,对未来一段时间可能发生的故障进行预测;故障告警及自动故障愈合模块,用于对故障进行报警;还用于根据预测故障模块的预测结果,利用预置的策略对预测的故障进行预处理,根据处理结果再进行报警或发送处理结果操作;和动态抑制报警模块,用于通过历史运维日志的分析,为服务器网络性能指标计算合适的报警阈值,防止误报。2.根据权利要求1所述的监控报警管理系统,其特征在于,所述预测故障模块功能具体包括:采用线性回归方法分析历史运维日志,建立服务器网络性能指标的预测模型,对未来一段时间的故障进行预测。3.根据权利要求1所述的监控报警管理系统,其特征在于,所述故障告警及自动故障愈合模块功能具体包括:通过包含运维人员信息的办公软件与监控报警管理系统对接,按不同维度设置不同的接收组,将报警信息推送到对应的接收组;当预测故障模块预测出故障后,首先抑制报警,根据报警分类执行预设的恢复脚本,等待设定时间后再探测故障节点,若尚未恢复则发出报警,若已经恢复则只发送处理结果邮件。4.根据权利要求1所述的监控报警管理系统,其特征在于,所述动态抑制报警模块功能具体包括:采用线性回归方法分析历史运维日志,计算服务器网络性能指标不同时段的合理报警阈值,防止误报;当发生网络故障并报警后,在设定时间间隔内抑制后续报警,设定时间间隔过后,若问题还未解决,则继续报警并重新开始设定时间间隔的计时。5.根据权利要求1所述的监控报警管理系统,其特征在于,所述系...
【专利技术属性】
技术研发人员:韩云峰,王燕杰,
申请(专利权)人:北京君禾世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。