一种运维环境告警方法技术

技术编号:29047458 阅读:22 留言:0更新日期:2021-06-26 06:05
本发明专利技术特别涉及一种运维环境告警方法。该运维环境告警方法,借助Prometheus服务器端、Prometheus客户端、推入口、探针和告警管理器组件,建立可视化的运维系统;在线设置并维护告警规则内容项、告警指标内容项和接收人信息,实现对资源的在线监测以及告警功能;将在可视化的运维系统中定义的告警规则内容项与告警指标内容项推送到Prometheus服务器端;Prometheus服务器端根据告警规则内容项与告警指标内容项过滤从探针中收集的各项指标,通过告警管理器实现告警规则与告警指标的消息推送。该运维环境告警方法,通过将硬件设备以及数据库设备等资源的整合,实现了对设备的统一维护和管理,不仅降低了维护成本,还降低了设备故障率,保障了设备的正常运行。保障了设备的正常运行。保障了设备的正常运行。

【技术实现步骤摘要】
一种运维环境告警方法


[0001]本专利技术涉及网络管理
,特别涉及一种运维环境告警方法。

技术介绍

[0002]随着信息系统的快速发展和IT设备更新换代的速度的加快以及网络应用的不断增长,网络规模的不断扩大,大量的服务器、存储、交换机、路由器、网关、WLAN设备等被广泛地应用于政府、企业。政府、企业由单地点办公向跨地域办公演进,业务越来越多样化,网络管理也越来越复杂。迫切的需要一套统一的网络管理系统,帮助用户高效的管理网络,为政府、企业业务的正常运转提供保障。
[0003]但是,目前常规的网络管理中仍存在许多难题:
[0004]1).IT设备多导致多套管理系统需要多人维护管理,建设成本高,人力投入大。
[0005]2).IT技术人员相对比较少,传统的PC,打印机运维占去大量的时间。
[0006]3).IT设备出现故障时排查时间过长,应用停机造成众多影响。
[0007]4).IT设备各类多、跨平台、跨厂商、监控无法统一,无法做到实时监控。
[0008]5).IT管理复杂,运维成本高,事件管理混乱,工作效率比较低。
[0009]基于上述问题,本专利技术提出了一种运维环境告警方法。

技术实现思路

[0010]本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的运维环境告警方法。
[0011]本专利技术是通过如下技术方案实现的:
[0012]一种运维环境告警方法,其特征在于:将所有的资源进行整合,将所有的告警接收人进行统一的维护,包括以下步骤:
[0013]第一步,借助Prometheus服务器端、Prometheus客户端、推入口(Push Gateway)、探针(Exporter)和告警管理器(Alertmanager)组件,建立可视化的运维系统;
[0014]第二步,在线设置并维护告警规则内容项、告警指标内容项和接收人信息,实现对资源的在线监测以及告警功能;
[0015]第三步,将在可视化的运维系统中定义的告警规则内容项与告警指标内容项推送到Prometheus服务器端;
[0016]第四步,Prometheus服务器端根据告警规则内容项与告警指标内容项过滤从探针中收集的各项指标,通过告警管理器实现告警规则与告警指标的消息推送。
[0017]所述第一步中,结合可视化工具Grafana,利用PromQL定制多屏资源的监控版面,使资源的指标能够通过图形化的界面进行展示。
[0018]所述第二步中,告警规则内容项包括告警规则名称、PromQL定义的告警规则、告警等级、是否启用、告警描述、持续时间、主送人和抄送人信息;当系统中启用告警规则时,设置该告警规则启用状态,通过告警规则以及持续时间标识,在启用状态持续规定时间内将相应的告警信息发送给相关的主送人和抄送人,根据告警规则进行告警推送。
[0019]所述第二步中,在系统中设置告警信息的接收器,接收通过告警规则获取到的相关告警信息,对告警信息进行统一管理;在设置页面中能够根据告警名称和/或告警等级查询相关告警信息的内容。
[0020]所述第二步中,告警指标内容项包括告警指标名称、指标表达式、执行间隔、指标状态、指标分类、指标状态、主送人和抄送人信息;系统中启用告警指标时,设置该条告警指标的状态为开启,依循指标的执行间隔,在间隔时间内获取指标内容中指定的状态,将告警指标信息发送到相关的主送人和抄送人。
[0021]所述第二步中,在系统中设置告警指标信息的接收器,接收通过告警指标获取到的相关的指标信息,对指标信息进行统一管理;在设置页面中能够根据指标名称和/或指标等级查询相关指标信息的内容。
[0022]所述第二步中,接收人信息包括姓名、账户、邮箱、电话、部门和接收时间,能够根据姓名和/或部门查询接收人的联系方式,统一管理接收人;还能根据设定的接收时间决定邮件以及消息的发送时间。
[0023]所述第四步中,当探针发现有资源达到告警规则中的告警指标时,触发告警管理器向相关的接收人发送邮件和/或消息提醒。
[0024]本专利技术的有益效果是:该运维环境告警方法,通过将硬件设备以及数据库设备等资源的整合,实现了对设备的统一维护和管理,不仅降低了维护成本,还降低了设备故障率,保障了设备的正常运行。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]附图1为本专利技术运维环境告警方法示意图。
具体实施方式
[0027]为了使本
的人员更好的理解本专利技术中的技术方案,下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0028]Prometheus是一个开源的监控系统和告警工具。其核心的Prometheus服务器端主要负责存储时间序列数据,包括三个组成部分,Retrieval用于服务发现配置,Storge用于存储数据,PromQL(Prometheus Query Language,)用于提供对时间序列数据丰富的查询,聚合以及逻辑运算能力的支持。
[0029]推入口(Push Gateway)组件主要用于存在时间较短的任务,由于这类任务存在时间较短,可能当Prometheus来拉取(pull)之前,数据已经消失了,所以这些任务可以直接向Prometheus Server主动端推送自己的metrics。这种方式主要用于服务层面的metrics,如果是机器层面的metrics,则需要用到探针(Exporter)。
[0030]探针(Exporter)组件与Agent(代理商)类似,安装在客户端上,用来监控数据,并向服务器端提供监控数据样本。常见的有node_exporter用来收集硬件信息、mysqld_exporter用于收集MySQL信息等等,可以根据自身需要选择不同的探针。
[0031]告警管理器(Alertmanager)用来处理报警,将告警信息发送给用户。
[0032]该运维环境告警方法,将所有的资源进行整合,将所有的告警接收人进行统一的维护,包括以下步骤:
[0033]第一步,借助Prometheus服务器端、Prometheus客户端、推入口(Push Gateway)、探针(Exporter)和告警管理器(Alertmanager)组件,建立可视化的运维系统;
[0034]第二步,在线设置并维护告警规则内容项、告警指标内容项和接收人信息,实现对资源的在线监测以及告警功能;
[0035]第三步,将在可视化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种运维环境告警方法,其特征在于:将所有的资源进行整合,将所有的告警接收人进行统一的维护,包括以下步骤:第一步,借助Prometheus服务器端、Prometheus客户端、推入口、探针和告警管理器组件,建立可视化的运维系统;第二步,在线设置并维护告警规则内容项、告警指标内容项和接收人信息,实现对资源的在线监测以及告警功能;第三步,将在可视化的运维系统中定义的告警规则内容项与告警指标内容项推送到Prometheus服务器端;第四步,Prometheus服务器端根据告警规则内容项与告警指标内容项过滤从探针中收集的各项指标,通过告警管理器实现告警规则与告警指标的消息推送。2.根据权利要求1所述的运维环境告警方法,其特征在于:所述第一步中,结合可视化工具Grafana,利用PromQL定制多屏资源的监控版面,使资源的指标能够通过图形化的界面进行展示。3.根据权利要求1所述的运维环境告警方法,其特征在于:所述第二步中,告警规则内容项包括告警规则名称、PromQL定义的告警规则、告警等级、是否启用、告警描述、持续时间、主送人和抄送人信息;当系统中启用告警规则时,设置该告警规则启用状态,通过告警规则以及持续时间标识,在启用状态持续规定时间内将相应的告警信息发送给相关的主送人和抄送人,根据告警规则进行告警推送。4.根据权利要求1或3所述的运维环境告警...

【专利技术属性】
技术研发人员:单静静房爱印陈萌刘宝祥孙正均
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1