基于Prometheus的指标告警管理系统及方法技术方案

技术编号:35932928 阅读:58 留言:0更新日期:2022-12-14 10:19
本发明专利技术公开了基于Prometheus的指标告警管理系统及方法,属于运维监控告警技术领域,要解决的技术问题为如何为系统运维告警提供简单易用且高可靠的告警方式。包括:告警指标收集模块,用于基于指标采集请求从Prometheus中获取系统告警所需指标的指标名称;告警规则管理模块,用于支持用户配置及编辑告警规则信息,用于生成告警文件,并将告警文件发送至Prometheus;并用于支持用户对告警文件中所需告警参数进行配置,得到配置有参数的告警文件;告警信息发送处理模块,用于解析告警信息并基于解析后的告警信息发送告警通知;并用于对配置有参数的告警文件进行解析,并基于解析后配置有参数的告警文件发送告警通知。后配置有参数的告警文件发送告警通知。后配置有参数的告警文件发送告警通知。

【技术实现步骤摘要】
基于Prometheus的指标告警管理系统及方法


[0001]本专利技术涉及运维监控告警
,具体地说是基于Prometheus的指标告警管理系统及方法。

技术介绍

[0002]告警对于现在的大型系统运维来说是至关重要的一环。由于大型系统的复杂度,在系统出现问题时如果不通过专门的性能统计来进行指标状态收集并进行告警,运维人员很难及时感知到系统发现的问题并及时解决,因此一个可靠性高而及时易用的告警工具是每个大型系统运维所必须的。而告警工具的告警判断是基于系统的各项指标,目前市面上使用较多的指标架构多基于Prometheus这一开源工具。
[0003]Prometheus作为一个开源系统监控和警报工具,最初在SoundCloud构建。自2012年成立以来,许多公司和组织都采用了Prometheus。该项目拥有非常活跃的开发者和用户社区。它现在是一个独立的开源项目,独立于任何公司维护。为了强调这一点,并明确项目的治理结构,Prometheus于2016年加入云原生计算基金会,成为继Kubernetes之后的第二个托管项目。
[0004]Prometheus将其指标收集并存储为时间序列数据,即指标信息与记录时的时间戳以及称为标签的可选键值对一起存储。之后可以通过其固定接口进行查询其在系统中配置的指标数据,完成对于系统性能的监控、告警等一系列运维工作。除Prometheus完成时序数据的处理外,Prometheus官方有提供配套的专业而全面的监控工具grafana以及告警工具alertManager,但由于其完成对于指标的告警工作需要同时配置上述的3个组件并进行一系列配置才能完成,在只需要完成指标告警这单一功能时整套系统显得过于臃肿,部署过程复杂而繁琐,而且在部分场景下会或多或少的影响系统性能。
[0005]如何为系统运维告警提供简单易用且高可靠的告警方式,是需要解决的技术问题。

技术实现思路

[0006]本专利技术的技术任务是针对以上不足,提供基于Prometheus的指标告警管理系统及方法,来解决如何为系统运维告警提供简单易用且高可靠的告警方式的技术问题。
[0007]第一方面,本专利技术的一种基于Prometheus的指标告警管理系统,用于获取告警指标及相关数据、生成并管理告警规则、以及处理及发送告警信息,所述系统包括:
[0008]告警指标收集模块,所述告警指标收集模块与Prometheus交互,用于基于指标采集请求从Prometheus中获取系统告警所需指标的指标名称;
[0009]告警规则管理模块,所述告警规则管理模块与Prometheus交互,并通过告警规则管理界面与用户交互,用于支持用户配置及编辑告警规则信息,用于基于告警规则信息生成告警文件,并将告警文件发送至Prometheus;并用于支持用户对告警文件中所需告警参数进行配置,得到配置有参数的告警文件;
[0010]告警信息发送处理模块,所述告警信息发送处理模块用于定时从Prometheus中获取告警信息,解析告警信息并基于解析后的告警信息发送告警通知;并用于从告警规则管理模块获取配置有参数的告警文件,对配置有参数的告警文件进行解析,并基于解析后配置有参数的告警文件发送告警通知。
[0011]作为优选,所述告警规则信息包括告警规则名称、告警指标、告警阈值、告警等级、告警范围、告警分组以及对应的告警通道;
[0012]每个告警等级用于限定告警通知发送时间间隔,不同告警等级对应的发送时间间隔不同;
[0013]所述告警分组为告警规则所属分组,每个告警分组适配对应的告警场景;
[0014]Prometheus获取告警文件后,在告警范围内工作,告警触发后,Prometheus定时向告警信息发送处理模块发送告警信息;
[0015]所述告警信息发送处理模块用于解析告警信息获取告警参数并获取告警来源,用于基于告警分组选择告警通道,并基于告警等级选择发送时间间隔,以通过告警通道、按照发送时间间隔定时发送告警通知。
[0016]作为优选,所述告警信息发送处理模块包括:
[0017]告警信息获取单元,所述告警信息获取单元用于从Prometheus获取告警信息;
[0018]告警信息处理单元,所述告警信息处理单元与所述告警信息获取单元交互,用于对告警信息进行解析得到告警参数,包括通过解析告警规则名称以及告警规则所携带的标签区分告警的来源,通过解析告警消息中的时间,区分告警类型,告警类型包括通常告警信息和指标已恢复的告警信息;
[0019]告警发送单元,所述告警发送单元与所述告警信息处理单元交互,用于接收告警参数,用于根据告警分组选择对应的告警通道并判断对应的告警通道是否开启,如果是,用于根据告警等级选择对应发送时间间隔,并判断发送时间间隔是否在告警信息指定的发送时间区间,如果是,用于通过对应的告警通道、按照对应的发送时间间隔定时发送告警通知。
[0020]作为优选,所述系统还包括:
[0021]日志告警模块,所述日志告警模块通过日志告警界面与用户交互,用于通过日志告警界面对日志告警进行配置,包括配置监控系统的日志路径、配置告警日志条目的关键字标签、配置日志路径的扫描时间间隔、以及配置发送日志告警的告警通道,用于基于指定的扫描时间间隔定时扫描指定日志路径下的日志文件,对于新增的需要告警的日志,用于基于指定的告警通道发送日志告警。
[0022]作为优选,所述系统还包括:
[0023]历史记录模块,所述历史记录模块通过历史记录界面与用户交互,用于配置日志清理规则,用于将每条告警作为告警日志记录在本地文件夹中,并用于基于日志清理规则删除告警日志以防止日志记录过多;
[0024]所述告警日志包括告警信息以及告警信息对应的告警参数和告警通知,还包括日志告警。
[0025]作为优选,所述告警规则管理模块用于基于配置的告警文件生成并导出告警模板,并用于导入告警模板并对告警模板进行二次配置。
[0026]第二方面,本专利技术的一种基于Prometheus的指标告警管理方法,用于通过如第一方面任一项所述的基于Prometheus的指标告警管理系统进行告警管理,包括获取告警指标及相关数据、生成并管理告警规则、以及处理及发送告警信息,所述方法包括如下步骤:
[0027]基于指标采集请求从Prometheus中获取系统告警所需指标的指标名称;
[0028]配置及编辑告警规则信息,基于告警规则信息生成告警文件,并将告警文件发送至Prometheus;
[0029]定时从Prometheus中获取告警信息,解析告警信息并基于解析后的告警信息发送告警通知。
[0030]作为优选,所述告警规则信息包括告警规则名称、告警指标、告警阈值、告警等级、告警范围、告警分组以及对应的告警通道;
[0031]每个告警等级用于限定告警通知发送时间间隔,不同告警等级对应的发送时间间隔不同;
[0032]所述告警分组为告警规则所属分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Prometheus的指标告警管理系统,其特征在于用于获取告警指标及相关数据、生成并管理告警规则、以及处理及发送告警信息,所述系统包括:告警指标收集模块,所述告警指标收集模块与Prometheus交互,用于基于指标采集请求从Prometheus中获取系统告警所需指标的指标名称;告警规则管理模块,所述告警规则管理模块与Prometheus交互,并通过告警规则管理界面与用户交互,用于支持用户配置及编辑告警规则信息,用于基于告警规则信息生成告警文件,并将告警文件发送至Prometheus;并用于支持用户对告警文件中所需告警参数进行配置,得到配置有参数的告警文件;告警信息发送处理模块,所述告警信息发送处理模块用于定时从Prometheus中获取告警信息,解析告警信息并基于解析后的告警信息发送告警通知;并用于从告警规则管理模块获取配置有参数的告警文件,对配置有参数的告警文件进行解析,并基于解析后配置有参数的告警文件发送告警通知。2.根据权利要求1所述的基于Prometheus的指标告警管理系统,其特征在于所述告警规则信息包括告警规则名称、告警指标、告警阈值、告警等级、告警范围、告警分组以及对应的告警通道;每个告警等级用于限定告警通知发送时间间隔,不同告警等级对应的发送时间间隔不同;所述告警分组为告警规则所属分组,每个告警分组适配对应的告警场景;Prometheus获取告警文件后,在告警范围内工作,告警触发后,Prometheus定时向告警信息发送处理模块发送告警信息;所述告警信息发送处理模块用于解析告警信息获取告警参数并获取告警来源,用于基于告警分组选择告警通道,并基于告警等级选择发送时间间隔,以通过告警通道、按照发送时间间隔定时发送告警通知。3.根据权利要求2所述的基于Prometheus的指标告警管理系统,其特征在于所述告警信息发送处理模块包括:告警信息获取单元,所述告警信息获取单元用于从Prometheus获取告警信息;告警信息处理单元,所述告警信息处理单元与所述告警信息获取单元交互,用于对告警信息进行解析得到告警参数,包括通过解析告警规则名称以及告警规则所携带的标签区分告警的来源,通过解析告警消息中的时间,区分告警类型,告警类型包括通常告警信息和指标已恢复的告警信息;告警发送单元,所述告警发送单元与所述告警信息处理单元交互,用于接收告警参数,用于根据告警分组选择对应的告警通道并判断对应的告警通道是否开启,如果是,用于根据告警等级选择对应发送时间间隔,并判断发送时间间隔是否在告警信息指定的发送时间区间,如果是,用于通过对应的告警通道、按照对应的发送时间间隔定时发送告警通知。4.根据权利要求1

3任一项所述的基于Prometheus的指标告警管理系统,其特征在于所述系统还包括:日志告警模块,所述日志告警模块通过日志告警界面与用户交互,用于通过日志告警界面对日志告警进行配置,包括配置监控系统的日志路径、配置告警日志条目的关键字标签、配置日志路径的扫描时间间隔、以及配置发送日志告警的告警通道,用于基于指定的扫
描时间间隔定时扫描指定日志路径下的日志文件,对于新增的需要告警的日志,用于基于指定的告警通道发送日志告警。5.根据权利要求4所述的基于Prometheus的指标告警管理系统,其特征在于所述系统还包括:历史记录模块,所述历史记录模块通过历史记录界面与用户交互,用于配置日志清理规则,用于将每条告警作为告警日志记录在本地文件夹中,并用于基于日志清理规则删除告警日志以防止日志记录过多;所述告警日志包括告警信息以及告警信息对应的告警参数和告警通知,还...

【专利技术属性】
技术研发人员:余杭卿侯俊栋陈善君
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1