一种用于检测应用集群健康度的系统及方法技术方案

技术编号:28320571 阅读:16 留言:0更新日期:2021-05-04 13:00
本发明专利技术涉及一种用于检测应用集群健康度的系统及方法,所述的方法包括初始化待监控的应用集群信息;数据采集单元采集APM工具生成的性能数据,并存储至本地数据库;基线计算单元根据本地数据库中的历史时序性能数据,获取动态基线;异常检测单元对本地数据库中的实时性能数据进行异常检测;告警单元根据异常检测单元的异常检测结果判断应用集群的健康度,并发出告警信息。与现有技术相比,本发明专利技术基于数据采集单元、动态基线计算单元、异常检测单元、告警单元、任务调度单元和本地数据库,有效储存应用集群的APM数据,获取应用集群的健康度,提高对应用集群健康度检测的准确性和高效性,提高应用集群健康度检测的可靠性。

【技术实现步骤摘要】
一种用于检测应用集群健康度的系统及方法
本专利技术涉及应用集群健康度检测领域,尤其是涉及一种用于检测应用集群健康度的系统及方法。
技术介绍
随着微服务架构的流行,越来越多的IT项目采用微服务架构进行开发。诚然微服务实现了模块间的解耦,同时以其独立部署、快速迭代等特性,满足了企业敏捷开发的要求。但随着服务模块的不断增加,服务间的调用也越来越复杂,我们急需应用服务调用链分析(以下简称APM)工具监控各个应用服务的调用情况及响应性能。目前,比较常见的APM工具有Naver的Pinpoint、google的Dapper、twitter的Zipkin、淘宝的鹰眼、大众点评的CAT等。虽然上述工具能很好的展示各个服务的性能以及服务之间的调用关系,同时可以根据用户自定义的阀值,对诸如交易缓慢数、报错数等指标进行告警。但仍存在以下不足:1、部分指标告警阀值的设置依赖用户经验,无法科学设置;2、根据不同时点业务压力的变化,部分性能指标会呈现动态变化的趋势,现有工具缺乏为此指标建立动态基线的能力;3、常规的阈值告警对故障的容忍度较低,误报率较高。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种用于检测应用集群健康度的系统及方法。本专利技术的目的可以通过以下技术方案来实现:一种用于检测应用集群健康度的系统,包括数据采集单元、动态基线计算单元、异常检测单元、告警单元、任务调度单元和本地数据库,所述的数据采集单元用于采集APM工具生成的性能数据,并存储至本地数据库,所述的动态基线计算单元用于根据本地数据库中的历史时序性能数据,生成动态基线,所述的异常检测单元用于本地数据库中的实时性能数据进行异常检测,并对实时数据打上正常标签或异常标签,所述的告警单元根据异常检测单元的异常检测结果判断应用集群的健康度,并发出告警信息,所述的本地数据库用于储存性能数据。优选地,所述的系统还包括前端展示单元,所述的前端展示单元用于实时展示各应用集群指标的动态基线和健康度。优选地,所述的系统还包括任务调度单元,用于统一管理数据采集、动态基线计算、告警轮询检查、数据归档等作业,并作为守护进程,保障所有计算模块的正常工作。一种用于检测应用集群健康度的方法,基于上述的一种用于检测应用集群健康度的系统,包括以下步骤:S1:初始化待监控的应用集群信息;S2:数据采集单元采集APM工具生成的性能数据,并存储至本地数据库;S3:基线计算单元根据本地数据库中的历史时序性能数据,获取动态基线;S4:异常检测单元对本地数据库中的实时性能数据进行异常检测;S5:告警单元根据异常检测单元的异常检测结果判断应用集群的健康度,并发出告警信息。优选地,所述的步骤S1具体包括:S101:同步已接入APM工具的应用集群信息;S102:判断是否建立动态基线,若是进入步骤S2,否则返回步骤S101。优选地,所述的步骤S2具体包括:S201:获取APM数据源;S201:对APM数据源进行切片统计,获取数据切片;S202:根据数据切片获取组织关键性能指标数据;S203:将组织关键性能指标数据存储至本地关系数据库。优选地,所述的步骤S3具体包括:S301:使用pythonpandas模块从本地数据库读取历史时序性能数据;S302:将历史时序性能数据格式转为Dataframe;S303:判读历史时序性能数据是否存在异常数据,若是,则剔除异常数据并进入S304,否则直接进入步骤S304;S304:计算历史时序性能数据中每天相同时点的均值和方差,根据历史数据中每天相同时点的均值和方差生成动态基线;S305:将动态基线写入数据库。优选地,所述的步骤S304中在历史时序性能数据的均值上加2倍方差生成动态基线最大值,在历史时序性能数据的均值上减2倍方差生成动态基线最小值。优选地,所述的步骤S4具体包括:S401:获取本地数据库中的实时性能数据;S402:判断实时性能数据是否满足异常规则,若是,对实时性能数据打上异常标签,并写入本地数据库,进入步骤S6,否则,进入步骤S403;S403:根据异常检测算法判断性实时性能数据是否异常,若是,对实时性能数据打上异常标签,并写入本地数据库,否则对实时性能数据打上正常标签,写入本地数据库。优选地,所述的步骤S5具体包括:步骤S501:轮询检查所有应用集群,判断是关键性能指标在指定异常时间阈值内的异常次数是否超过异常次数阈值,若是,判断应用集群的健康度为异常并进入S502,否则,判断应用集群的健康度为健康;步骤S502:生成并发送告警信息。优选地,所述的系统还包括前端展示单元,所述的前端展示单元用于实时展示各应用集群指标的动态基线和健康度。优选地,所述的方法还包括步骤S6:前端展示单元将动态基线和性能指标数据使用echarts图表显示。步骤S6具体包括:步骤S601:用户选择需要查看的业务系统、应用集群信息;步骤S602:选择需要展示的指标信息、时间段信息;步骤S603:前端根据用户输入的信息,查询后端数据库,组织数据,并通过echarts折现图展示动态基线和异常点数据。与现有技术相比,本专利技术具有如下优点:(1)本专利技术的应用集群健康度检测系统及方法基于数据采集单元、动态基线计算单元、异常检测单元、告警单元、任务调度单元和本地数据库,能够有效储存应用集群的APM数据,实现对应用集群健康度的科学检测,有效提高对应用集群健康度检测的准确性和高效性,规范化健康度检测流程,提高应用集群健康度检测的可靠性;(2)本专利技术的异常检测单元引入异常检测算法,帮助建立各类性能指标的告警设置无需人工干预,有效提高对异常检测准确性和效果;(3)本专利技术提出了基于时序的动态基线的建立,利用2西格玛法对历史时序性能数据进行处理,建立动态基线,能够基于历史时序性能数据对当前实时数据进行判断和处理,提高对健康度判断的可靠性;(4)本专利技术的异常检测单元根据对异常时间阈值、异常次数阈值的调节支持用户对告警触发规则进行制定,极大的提升了告警的精准度及准确率,减少误报次数;(5)本专利技术利用前端展示单元对动态基线和异常点数据进行选择展示,提高了本系统的可操作性和适用性。附图说明图1为本专利技术的流程图;图2为本专利技术步骤S2的流程示意图;图3为本专利技术步骤S3的流程示意图;图4为本专利技术步骤S4的流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本专利技术并不意在对其适用物或其用途进行限定,且本专利技术并不限定于以下的实施方式。实施例一种用于检测应用集群健康度的系统,包括本文档来自技高网...

【技术保护点】
1.一种用于检测应用集群健康度的系统,其特征在于,包括数据采集单元、动态基线计算单元、异常检测单元、告警单元、任务调度单元和本地数据库,/n所述的数据采集单元用于采集APM工具生成的性能数据,并存储至本地数据库,/n所述的动态基线计算单元用于根据本地数据库中的历史时序性能数据,生成动态基线,/n所述的异常检测单元用于本地数据库中的实时性能数据进行异常检测,并对实时数据打上正常标签或异常标签,/n所述的告警单元用于根据异常检测单元的异常检测结果判断应用集群的健康度,并发出告警信息,/n所述的本地数据库用于储存性能数据。/n

【技术特征摘要】
1.一种用于检测应用集群健康度的系统,其特征在于,包括数据采集单元、动态基线计算单元、异常检测单元、告警单元、任务调度单元和本地数据库,
所述的数据采集单元用于采集APM工具生成的性能数据,并存储至本地数据库,
所述的动态基线计算单元用于根据本地数据库中的历史时序性能数据,生成动态基线,
所述的异常检测单元用于本地数据库中的实时性能数据进行异常检测,并对实时数据打上正常标签或异常标签,
所述的告警单元用于根据异常检测单元的异常检测结果判断应用集群的健康度,并发出告警信息,
所述的本地数据库用于储存性能数据。


2.根据权利要求1所述的一种用于检测应用集群健康度的系统,其特征在于,所述的系统还包括前端展示单元,所述的前端展示单元用于实时展示各应用集群指标的动态基线和健康度。


3.一种用于检测应用集群健康度的方法,其特征在于,基于权利要求1所述的一种用于检测应用集群健康度的系统,包括以下步骤:
S1:初始化待监控的应用集群信息;
S2:数据采集单元采集APM工具生成的性能数据,并存储至本地数据库;
S3:基线计算单元根据本地数据库中的历史时序性能数据,获取动态基线;
S4:异常检测单元对本地数据库中的实时性能数据进行异常检测;
S5:告警单元根据异常检测单元的异常检测结果判断应用集群的健康度,并发出告警信息。


4.根据权利要求3所述的一种用于检测应用集群健康度的方法,其特征在于,所述的步骤S1具体包括:
S101:同步已接入APM工具的应用集群信息;
S102:判断是否建立动态基线,若是进入步骤S2,否则返回步骤S101。


5.根据权利要求3所述的一种用于检测应用集群健康度的方法,其特征在于,所述的步骤S2具体包括:
S201:获取APM数据源;
S201:对APM数据源进行切片统计,获取数据切片;
S202:根据数据切片获取组织关键性能指标数据;
S203:将组织关键性能指标数据存储至本地关系数据库。


6.根据权...

【专利技术属性】
技术研发人员:陈胜仇吴海洋吴倩花卉王玮马德晶周士成
申请(专利权)人:中国人寿保险股份有限公司上海数据中心
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1