一种基于历史监控数据的智能化预警和处置方法技术

技术编号：40968584 阅读：2 留言：0更新日期：2024-04-18 20:49

本发明专利技术公开了一种基于历史监控数据的智能化预警和处置方法，通过对历史监控数据的统计和分析，能够更准确地识别和预测异常情况，减少误报和漏报，提高预警准确性；本发明专利技术能够基于对历史监控数据的统计分析结果，对实时监控数据进行快速处理，实现实时监测和预警通知，提升系统的响应速度；基于历史数据的监控项历史画像可以帮助我们更好的掌握主机和系统运行的健康情况，有利于识别和定位故障的方向；通过对历史监控数据的统计和分析，对监控对象指标进行智能化处理和预警，从真实数据角度出发构建监控全貌，解决了传统方法中的局限性，提高了异常检测的准确性和系统的响应能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及新兴信息技术相关，尤其涉及一种基于历史监控数据的智能化预警和处置方法。

技术介绍

1、当前监控告警流程中缺少对历史监控数据的沉淀和应用，通过对过往数据的分析和比对，能够获取规律性的提示信息，辅助研判趋势，防范化解系统风险；而且，目前的监控告警系统缺少对常规告警的自动化处置办法，需要人为手动消除，通过智能预案管理，减少人为的操作成本。

技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊，而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述现有筷体连接结构存在的问题，提出了本专利技术。

3、因此，本专利技术要解决的技术问题是提供一种基于历史监控数据的智能化预警和处置方法，包括以下几个具体的步骤：

4、s1：采集监控指标，对数据进行时序化处理；

5、s2：对数据库中的历史数据进行同环比统计和分析，发现指标异常的关键时间节点和指标值，以及某时间段内该指标的变化趋势；通过对数据库中的历史数据进行同比(与去年同期对比)和环比(与上一个时间段对比)的统计分析，可以发现指标异常的关键时间节点和指标值，以及某时间段内该指标的变化趋势；

6、s3：对数据库中的所有的告警信息按照类别标签进行归类，以便更好地管理和追踪；

7、s4：告警策略采用自定义模式，

8、s5：进行告警升级处理，其中，告警升级包括告警接收人和告警问题级别两个维度的多层级设置，整体的原则为上一级未处理或告警未恢复时，根据预设定阈值，升级到下一级告警；

9、s6：当告警发生时，根据告警策略执行对应操作；若该告警具备预置脚本，则执行对应脚本，并将执行结果告知告警接收者，若不具备预置脚本，则根据告警标签告知接收者，以此实现告警自愈功能；

10、s7：对资源进行容量水位检测和资源消耗预估，并根据结果进行告警规则设置，实现资源规划功能；

11、s8：通过级联分析自动化溯源和诊断问题根因，辅助运维效率提升；

12、s9：通过告警数据分析并结合故障管理，得出系统整体sla水平。

13、作为本专利技术所述基于历史监控数据的智能化预警和处置方法的一种优选方案，其中：在步骤s1中，接收来自prometheus server的告警数据，并将其持久化存储至数据库；其中，数据源接收方式采用webhook的方式接收，只需提前将webhook地址设置在prometheus配置文件中即可，webhook地址实质上是数据处理服务的入口api地址；当prometheus中接收到告警信息时，会将该告警信息发送给对应webhook地址，触发后续数据处理流程，按照时间顺序持久化该告警信息。

14、作为本专利技术所述基于历史监控数据的智能化预警和处置方法的一种优选方案，其中：这些时间节点可能意味着与正常趋势不符的偏差，可能是潜在问题的信号，同时该时间段的变化趋势也可作为对比的标准，可类比为当前时间段的趋势，从而预测出未来某个时间的该指标的值，并做出判断。在每天的相应时间节点，根据前面步骤中提取的关键时间节点和指标匹配规则，对当前的指标进行比对；如果当前指标的趋势与历史数据相似，则提前进行告警通知或执行预置的脚本，这使得系统能够及时对潜在问题作出反应。

15、作为本专利技术所述基于历史监控数据的智能化预警和处置方法的一种优选方案，其中：在步骤s3中，通过对告警的分类和关联性分析，可以确定告警的链路，即各个告警事件之间的关联关系和传递路径，有助于更准确地定位问题源头；每一个告警信息都有若干标签，这些标签可分为告警级别、告警范围、告警层级等，同时增加告警类型id标签，当某时段内已经存在该类型id的告警信息时，后续增加的同类型id告警将忽略，只做持久化存储，而不会进行告警通知，以减少因同一种异常引起的告警风暴。

16、作为本专利技术所述基于历史监控数据的智能化预警和处置方法的一种优选方案，其中：在步骤s3中，级别分为critical致命级别、serious严重级别、warning警告级别、info提示级别，其中，critical致命级别是指该异常已经或即将直接影响到客户业务正常运行，需要运维人员第一时间处理；serious严重级别是指该异常虽然暂时不影响业务但有重大潜在风险，如果不及时处理日后可能会导致业务异常；warning警告级别是指该异常表示系统可能小概率出现异常，几乎没有业务感知，但建议由服务器厂商或集成人员核实确认；info提示级别是指该问题属于提示作用，实际可能并无危害，运维确认环境无异常后即可。

17、作为本专利技术所述基于历史监控数据的智能化预警和处置方法的一种优选方案，其中：在步骤s4中，告警收敛方案包括两种，当故障可自愈时，统计时间，在故障在一段周期内发生n次后，从第n+1次开始计算count累计，超阈值后再触发告警；当故障不可自愈时，人工介入进行修复。区分故障是否可自愈的参考因素包括告警分类、预案处置的自动化程度、历史告警发生到恢复的时间差等因素。

18、作为本专利技术所述基于历史监控数据的智能化预警和处置方法的一种优选方案，其中：在步骤s5中，如果某个时间过后仍有未解决的告警，系统自动升级告警的级别，并将告警信息扩大发送范围，以吸引更多的关注和资源来解决问题，有助于加快问题处理的速度和重视程度。

19、作为本专利技术所述基于历史监控数据的智能化预警和处置方法的一种优选方案，其中：在步骤s6中，根据告警的分类标签，将告警信息发送给相应的人员或部门，确保告警信息及时地传达给负责处理的人员，提高问题解决的效率和准确性；由于告警接收者被打上若干标签，当告警信息中含有该标签时，则发送该告警信息给含有该标签的接收者；告警通知的方式，可以支持短信、微信、邮件、电话等多种媒介，并根据不同时段和告警严重程度采用不同的方式，例如最高等级的故障发生在非工作时段，配置电话告警，以最快速方式通知到值班人员处理。

20、作为本专利技术所述基于历史监控数据的智能化预警和处置方法的一种优选方案，其中：在步骤s7中，容量水位监测设定三级阈值，其中第一级为warning，即警告型通知，需要引起关注；其中，第二级为critical，即问题比较严重，需要引起重视；第三级为emergency，即问题十分危急，需要立即人工介入进行处理；对于资源类告警，需要结合所处的环境来进行判断，不同环境的对容量水位阈值的感知程度不同；比如内存使用率85％这个阈值，对于正式环境核心业务的主机来说，超过这个阈值的告警即为第二级，而对于测试环境的业务所在主机来说可能只算是第一级；资源消耗预估则是根据历史监控数据得出的一个预测值，通过大量的告警规律得出的各主机资源消耗情况；对于消耗速度快的主机来说，超过某个阈值的告警是需本文档来自技高网...

【技术保护点】

1.一种基于历史监控数据的智能化预警和处置方法：包括以下几个具体的步骤：

2.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤S1中，接收来自Prometheus server的告警数据，并将其持久化存储至数据库；其中，数据源接收方式采用Webhook的方式接收，提前将Webhook地址设置在Prometheus配置文件中，将Webhook地址作为数据处理服务的入口API地址；当Prometheus中接收到告警信息时，将该告警信息发送给对应Webhook地址，触发后续数据处理流程，按照时间顺序持久化该告警信息。

3.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤S2中的关键时间节点意味着与正常趋势不符的偏差，是潜在问题的信号，同时该时间段的变化趋势作为对比的标准，类比为当前时间段的趋势，从而预测出未来某个时间的该指标的值，并做出判断；在每天的相应时间节点，根据前面步骤中提取的关键时间节点和指标匹配规则，对当前的指标进行比对；如果当前指标的趋势与历史数据相似，则提前进行告警通知或执行预置的脚本，使得系统及时对潜在问题作出反应。

4.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤S3中，通过对告警的分类和关联性分析，确定告警的链路，即各个告警事件之间的关联关系和传递路径，有助于更准确地定位问题源头；对每一个告警信息均标注若干标签，这些标签分为告警级别、告警范围、告警层级，同时增加告警类型ID标签，当某时段内已经存在该类型ID的告警信息时，后续增加的同类型ID告警被忽略，只做持久化存储，而不会进行告警通知，以减少因同一种异常引起的告警风暴。

5.如权利要求4所述的基于历史监控数据的智能化预警和处置方法：在步骤S3中，级别分为critical致命级别、serious严重级别、warning警告级别、info提示级别，其中，critical致命级别是指该异常已经或即将直接影响到客户业务正常运行，需要运维人员第一时间处理；serious严重级别是指该异常虽然暂时不影响业务但有重大潜在风险，如果不及时处理日后可能会导致业务异常；warning警告级别是指该异常表示系统可能小概率出现异常，几乎没有业务感知，但建议由服务器厂商或集成人员核实确认；info提示级别是指该问题属于提示作用，实际并无危害，运维确认环境无异常后即可。

6.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤S4中，当故障自愈时，统计时间，在故障在一段周期内发生N次后，从第N+1次开始计算count累计，超阈值后再触发告警；当故障不可自愈时，人工介入进行修复。

7.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤S5中，如果某个时间过后仍有未解决的告警，系统自动升级告警的级别，并将告警信息扩大发送范围，以吸引更多的关注和资源来解决问题。

8.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤S6中，根据告警的分类标签，将告警信息发送给相应的人员或部门，确保告警信息及时地传达给负责处理的人员；由于告警接收者被打上若干标签，当告警信息中含有该标签时，则发送该告警信息给含有该标签的接收者。

9.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤S7中，容量水位监测设定三级阈值，其中第一级为warning，即警告型通知，需要引起关注；其中，第二级为critical，即问题比较严重，需要引起重视；第三级为emergency，即问题十分危急，需要立即人工介入进行处理；对于资源类告警，需要结合所处的环境来进行判断，不同环境的对容量水位阈值的感知程度不同。

10.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤S8中，根因分析是挖掘系统告警和故障原因的重要手段，其建设的基本思路为，一是对告警严重程度、发送对象和影响面进行有效的划分；二是告警通报的话术要实现标准化，具备业务描述能力，即告警发生后通过内容描述能基本了解影响面是什么；三是层级关联模块，要梳理清资产服务清单，包括虚拟机和宿主机之间的关系，主机和应用服务的关系，应用服务之间的调用关系，若现有技术中存在能描述清上述层级关系的CMDB系统，则只需将系统间打通实现API调用即可；四是挖掘分析模块，采用告警上下文关联和告警内容关联两者结合挖掘告警事件的关联关系，通过此挖掘步骤获得告警事件两两之间的拓扑关系，将告警事件进行划分处理，把告警事件划分至一个时间窗口内；此外，由于告警事件发生的告警关键内容具有较大相似性，则需在时间分段基础上计算本文相似度，对场景进行分段处理。

...

【技术特征摘要】

1.一种基于历史监控数据的智能化预警和处置方法：包括以下几个具体的步骤：

2.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤s1中，接收来自prometheus server的告警数据，并将其持久化存储至数据库；其中，数据源接收方式采用webhook的方式接收，提前将webhook地址设置在prometheus配置文件中，将webhook地址作为数据处理服务的入口api地址；当prometheus中接收到告警信息时，将该告警信息发送给对应webhook地址，触发后续数据处理流程，按照时间顺序持久化该告警信息。

3.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤s2中的关键时间节点意味着与正常趋势不符的偏差，是潜在问题的信号，同时该时间段的变化趋势作为对比的标准，类比为当前时间段的趋势，从而预测出未来某个时间的该指标的值，并做出判断；在每天的相应时间节点，根据前面步骤中提取的关键时间节点和指标匹配规则，对当前的指标进行比对；如果当前指标的趋势与历史数据相似，则提前进行告警通知或执行预置的脚本，使得系统及时对潜在问题作出反应。

4.如权利要求1所述的基于历史监控数据的智能化预警和处置方法：在步骤s3中，通过对告警的分类和关联性分析，确定告警的链路，即各个告警事件之间的关联关系和传递路径，有助于更准确地定位问题源头；对每一个告警信息均标注若干标签，这些标签分为告警级别、告警范围、告警层级，同时增加告警类型id标签，当某时段内已经存在该类型id的告警信息时，后续增加的同类型id告警被忽略，只做持久化存储，而不会进行告警通知，以减少因同一种异常引起的告警风暴。

5.如权利要求4所述的基于历史监控数据的智能化预警和处置方法：在步骤s3中，级别分为critical致命级别、serious严重级别、warning警告级别、info提示级别，其中，critical致命级别是指该异常已经或即将直接影响到客户业务正常运行，需要运维人员第一时间处理；serious严重级别是指该异常虽然暂时不影响业务但有重大潜在风险，如果不及时处理日后可能会导致业务异常；warning警告级别是指该异常表示系统可能小概率出现异常，几乎没有业务感知，但建议由服务器厂商或集成人员核实确认；info提示级别是...

【专利技术属性】
技术研发人员：康敏杰，秦杨子，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人