基于动态阈值方法的可视化预警系统及方法技术方案

技术编号:29929626 阅读:24 留言:0更新日期:2021-09-04 18:55
本发明专利技术提出一种基于动态阈值方法的可视化预警系统及方法,旨在解决现有告警技术没有动态阈值监测、告警可视化展现的问题;包括:python脚本获取正常服务性能作为动态更新的阈值模板,将实时服务告警值与阈值模板进行比较,当结果满足预设的告警模板中的告警阈值,则自动触发邮件告警可视化展示告警结果。可选的,告警的类别包括:服务调用量异常、服务性能异常、服务成功率异常、服务失败量异常的至少一种。一种。一种。

【技术实现步骤摘要】
基于动态阈值方法的可视化预警系统及方法


[0001]本专利技术涉及告警监控
,尤其涉及一种基于动态阈值方法的可视化预警系统及方法。

技术介绍

[0002]传统的监控告警是通过zabbix、nagios、sql语句、shell脚本等监控工具或手段监测各个组件不同维度的指标信息,并对相应指标设定阈值,配置短信或邮件告警等形式通知运维人员进行处理。告警配置过程中包括指标设定、监测周期设定、监测阈值设定、告警内容设定、告警接收人等,在此过程中每个步骤均依赖运维工程师的经验进行建设。
[0003]传统的监控告警手段基于的是单维度的指标监控告警,各个告警结果各自为政,当系统出现异常时极易产生海量的告警信息,这些告警信息中可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低了运维工作的效率。
[0004]在错综复杂的IT系统架构中,一旦IT系统发生故障,那么就需要非常多的运维工程师们,通过大量的时间对故障进行多重排查,每一个细小问题都有可能带来连锁性的故障,往往解决一个问题需要好几个小时的时间。对于目前日益增速的业务环境,这些是不可容忍的。

技术实现思路

[0005]为了解决现有技术存在的缺陷和不足的问题,本专利技术提出一种基于动态阈值方法的可视化预警系统及方法。其目的在于提供一种服务异常告警方法,旨在解决现有告警技术没有动态阈值监测、告警可视化展现的问题;包括: python脚本获取正常服务性能作为动态更新的阈值模板,将实时服务告警值与阈值模板进行比较,当结果满足预设的告警模板中的告警阈值,则自动触发邮件告警可视化展示告警结果。可选的,告警的类别包括:服务调用量异常、服务性能异常、服务成功率异常、服务失败量异常的至少一种。
[0006]为提升运维效率,汇聚有效告警,本专利技术提出对告警进行直接的溯源、降噪,SRE 运维的告警监控工具, 采用的方案为运用 python 开发语言对 druid、ES等数据源 的接口进行实时调用构建指标数据,并按照业务梳理服务与系统的关系模型等特定场景对数据进行分析,以判断系统的运行情况,当满足制定的告警规则时,则调用预先配置的大屏监测模型生成的图像,并截图后以附件的形式发送邮件给告警接收人。
[0007]邮件截图发送相较于传统的短信通知,能够直观的看到故障发生的趋势,同时可以看到跟该告警相关联的设备性能、应用程序调用量、性能耗时等情况,多维度的查看系统运行情况,方便快速进行初步故障诊断,第一时间对运维人员展示出故障的根本原因及定位,减少运维人员的故障处理时间,提高运维工作效率。
[0008]本专利技术具体包括以下内容:一种基于动态阈值方法的可视化预警系统,其特征在于,包括:数据存储模块、负载均衡模块、数据动态阈值模块和可视化模块;
所述数据存储模块用于从多台服务器上收集日志进行实时存储;所述负载均衡模块用于获取数据存储模块中的日志数据,采用轮询方式对每个请求按时间顺序逐一分配到不同的python服务器;所述数据动态阈值模块用于从负载均衡模块上拉取实时数据,当比较结果满足预设多告警模板中的告警阈值,则触发相应类别的告警;所述可视化模块用于告警信息的可视化展示。
[0009]进一步地,如果某一python服务器状态异常,则所述负载均衡模块将其从python服务器池中剔除。
[0010]进一步地,所述数据动态阈值模块中,触发服务性能异常的条件如下:Max(WD

SD)>service_duration=[3,n]触发服务调用量异常的条件如下:Max(WC

SC)>service_count=[3,n]触发服务成功率异常的条件如下:Max(WS

SS)>service_success=[3,n]触发服务失败量异常的条件如下:Max(WE

SE)>service_error=[3,n]其中,WD为当前实时服务每分钟性能值,SD为历史同时段服务每分钟性能值,service_duration为服务性能预设阈值模板,WC为当前实时服务每分钟调用量值,SC为历史同时段服务每分钟调用量值,service_count为服务调用量预设阈值模板,WS为当前实时服务每分钟成功率值,SS为历史同时段服务每分钟成功率值,service_success为服务成功率预设阈值模板,WE为当前实时服务每分钟失败量值,SE为历史同时段服务每分钟失败量值,service_error为服务失败量预设阈值模板,n为被监测服务性能总数。
[0011]进一步地,所述可视化模块的可视化展示内容至少包括:服务异常当前异常值、历史同时段异常值,当前近一个小时数据趋势。
[0012]进一步地,所述数据动态阈值模块采用python脚本获取正常服务性能作为阈值模板,并采用动态基线告警方式,分析监控指标的历史时刻值、区间趋势值。
[0013]进一步地,所述数据动态阈值模块将实时服务告警值与动态基线阈值模板进行比较,当结果满足预设的告警模板中的告警阈值时,则自动触发可视化模块采用邮件告警的方式可视化展示告警结果。
[0014]以及,一种基于动态阈值方法的可视化预警方法,其特征在于,包括以下步骤:步骤S1:数据存储模块从多台服务器上收集日志进行实时存储;步骤S2:负载均衡模块获取数据存储模块中的日志数据,采用轮询方式对每个请求按时间顺序逐一分配到不同的python服务器;步骤S3:数据阈值模块从负载均衡模块上拉取实时数据,当比较结果满足预设多告警模板中的告警阈值,则触发相应类别的告警;步骤4:数据阈值模块根据当比较结果满足预设多告警模板中的告警阈值,调用可视化模块集成接口进行可视化展示,包括:服务异常当前异常值、历史同时段异常值,当前近一个小时数据趋势。
[0015]进一步地,在步骤S3中:触发服务性能异常的条件如下:Max(WD

SD)>service_duration=[3,n]触发服务调用量异常的条件如下:Max(WC

SC)>service_count=[3,n]触发服务成功率异常的条件如下:Max(WS

SS)>service_success=[3,n]触发服务失败量异常的条件如下:Max(WE

SE)>service_error=[3,n]其中,WD为当前实时服务每分钟性能值,SD为历史同时段服务每分钟性能值,service_duration为服务性能预设阈值模板,WC为当前实时服务每分钟调用量值,SC为历史同时段服务每分钟调用量值,service_count为服务调用量预设阈值模板,WS为当前实时服务每分钟成功率值,SS为历史同时段服务每分钟成功率值,service_success为服务成功率预设阈值模板,WE为当前实时服务每分钟失败量值,SE为历史同时段服务每分钟失败量值,service_error为服务失败量预设阈值模板,n为被监测服务性能总数。
[0016]以及,一种基于动态阈值方法的可视化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态阈值方法的可视化预警系统,其特征在于,包括:数据存储模块、负载均衡模块、数据动态阈值模块和可视化模块;所述数据存储模块用于从多台服务器上收集日志进行实时存储;所述负载均衡模块用于获取数据存储模块中的日志数据,采用轮询方式对每个请求按时间顺序逐一分配到不同的python服务器;所述数据动态阈值模块用于从负载均衡模块上拉取实时数据,当比较结果满足预设多告警模板中的告警阈值,则触发相应类别的告警;所述可视化模块用于告警信息的可视化展示。2.根据权利要求1所述基于动态阈值方法的可视化预警系统,其特征在于:如果某一python服务器状态异常,则所述负载均衡模块将其从python服务器池中剔除。3.根据权利要求1所述基于动态阈值方法的可视化预警系统,其特征在于:所述数据动态阈值模块中,触发服务性能异常的条件如下:Max(WD

SD)>service_duration=[3,n]触发服务调用量异常的条件如下:Max(WC

SC)>service_count=[3,n]触发服务成功率异常的条件如下:Max(WS

SS)>service_success=[3,n]触发服务失败量异常的条件如下:Max(WE

SE)>service_error=[3,n]其中,WD为当前实时服务每分钟性能值,SD为历史同时段服务每分钟性能值,service_duration为服务性能预设阈值模板,WC为当前实时服务每分钟调用量值,SC为历史同时段服务每分钟调用量值,service_count为服务调用量预设阈值模板,WS为当前实时服务每分钟成功率值,SS为历史同时段服务每分钟成功率值,service_success为服务成功率预设阈值模板,WE为当前实时服务每分钟失败量值,SE为历史同时段服务每分钟失败量值,service_error为服务失败量预设阈值模板,n为被监测服务性能总数。4.根据权利要求1所述基于动态阈值方法的可视化预警系统,其特征在于:所述可视化模块的可视化展示内容至少包括:服务异常当前异常值、历史同时段异常值,当前近一个小时数据趋势。5.根据权利要求1所述基于动态阈值方法的可视化预警系统,其特征在于:所述数据动态阈值模块采用python脚本获取正常服务性能作为阈值模板,并采用动态基线告警方式,分析监控指标的历史时刻值、区间趋势值。6.根据权利要求5所述基于动态阈值方法的可视化预警系统,其特征在于:所述数据动态阈值模块将实时服务告...

【专利技术属性】
技术研发人员:王智明刘宇胡建金李建明
申请(专利权)人:福建福诺移动通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1