一种基于调用链数据的监控告警和溯源方法及系统技术方案

技术编号:33565192 阅读:22 留言:0更新日期:2022-05-26 23:03
本发明专利技术涉及一种基于调用链数据的监控告警和溯源方法及系统,包括:S1、应用接入APM组件,从而代理拦截插桩的入口;S2、APM组件采集该接口调用链日志发送到kafka消息队列,并存储到ES数据库;S3、APM服务端对ES数据库内的调用链信息进行处理,将其处理合并成时间粒度的接口统计数据后,再次发送到kafka消息队列,并存储到时序数据库;S4、根据应用场景配置告警策略并添加监控指标;S5、根据告警策略和监控指标,生成告警记录;然后,根据接口统计数据,将告警记录归类形成告警调用树,从而快速获知系统缓慢根源。系统缓慢根源。系统缓慢根源。

【技术实现步骤摘要】
一种基于调用链数据的监控告警和溯源方法及系统


[0001]本专利技术涉及调用链
,特别涉及一种基于调用链数据的监控告警和溯源方法及系统。

技术介绍

[0002]随着微服务设计理念在系统中的应用,服务之间的调用关系越来越复杂。一个业务请求可能会涉及到几十个服务的协同操作,涉及到多个业务系统。当遇到服务性能问题需要定位的时候,也会产生一系列的困难。
[0003]目前,在运维体系中,一般使用APM系统(应用性能管理与监控系统)实现对基于Java语言开发的应用系统的服务调用链路分析和性能监控,APM主要分为以下部分:通过调用链,把每次请求的调用过程完整串联起来,实现了对请求调用路径的监控,便于故障快速定位。各个调用环节的性能分析(如API执行耗时、资源使用情况,堆栈使用情况等)、还原调用链各个环节依赖关系、IP显示等。
[0004]但是,现有的APM服务端仅提供基础的单次调用阀值告警,无法做到接口维度的历史趋势告警、突变告警等;APM服务端仅提供调用检索及调用链详情功能,在应用出现性能问题时,无法进行告警并定位性能问题源头。
[0005]因此,APM调用链是基于单次请求的链条,缺乏接口性能的各种指标的有效监测和告警,且缺乏基于历史趋势、突变等告警条件的支持;当系统中出现性能问题时,如某个服务方法耗时较长,由于子方法耗时告警时经常会导致其所有上级方法产生告警,使得系统会产生大量的告警。APM系统只能展现大量单次请求的链条,由于告警可能分布多个应用,通常需要大量的人工分析才可以判断应用系统缓慢源头,缺乏直观的方法进行快速定位真正的性能问题源头。

技术实现思路

[0006]基于此,有必要提供一种基于调用链数据的监控告警和溯源方法及系统。
[0007]本专利技术实施例一方面提供一种基于调用链数据的监控告警和溯源方法,包括如下步骤:S1:线上应用接入APM组件,从而代理拦截插桩的入口;S2:当APM组件拦截到接口的调用时,采集该接口调用链日志并发送到kafka消息队列,同时,将该接口调用链日志存储到ES数据库;S3:APM服务端对ES数据库内的调用链信息进行处理,将其处理合并成时间粒度的接口统计数据后,再次发送到kafka消息队列,然后,将该接口统计数据存储到时序数据库;S4:根据具体的应用场景配置告警策略并添加相应的监控指标;S5:根据步骤S4中配置的告警策略和添加的监控指标,生成相应的告警记录;然后,根据步骤S1中的接口统计数据,将告警记录进行归类,形成树状结构的告警调用树,并进行直观展示,从而快速获知系统缓慢根源。
[0008]优选地,该监控告警和溯源方法还包括以下步骤:S6、根据调用链的详情和应用日志进行总展示分析:根据告警记录查找符合条件的调用链;然后,根据调用链的TraceId及节点SpanId筛选对应的应用日志,从而提供对照分析,进一步定位系统缓慢的根因。
[0009]优选地,所述APM组件为java agengt组件;所述接口统计数据包括时间戳、应用、服务、方法、接口、平均耗时、最大耗时、总调用次数、失败调用次数、TP50、TP90和TP99;所述时间粒度为一分钟粒度。
[0010]优选地,步骤S4中,生成告警记录的所述告警策略包括指定值策略、动态历史基线策略、相同方法偏移策略和趋势突变策略中的任意一种。
[0011]优选地,步骤S4中,所述监控指标包括平均耗时监控指标、失败监控指标、最大耗时监控指标、可用率监控指标、调用量监控指标、TP50监控指标、TP90监控指标和TP99监控指标。
[0012]优选地,步骤S5中,将所述告警记录按应用、服务、方法、接口维度进行归类,并合并告警内容;然后,根据告警信息关联的调用链信息,告警记录按照树状结构进行排序,生成多个节点的告警树状结构。
[0013]本专利技术还提供一种基于调用链数据的监控告警和溯源系统,所述系统包括:调用链数据采集模块:用于采集调用链及性能数据,并输出到kafka消息队列,同时,监控分析程序从kafka抽取数据并存储到时序数据库;监控指标配置及告警模块:用于配置监控指标和告警类型,从而对接口进行多维度、多类型的监测和提供告警;源头分析模块:用于对性能问题源头进行溯源,根据配置监控指标和告警类型生成相应的告警记录,并将告警记录进行归类排序得到告警调用树进行直观展示;调用链关联日志分析模块:用于根据告警记录查找符合条件的调用链,然后,根据调用链的TraceId及节点SpanId筛选对应的应用日志,从而提供对照分析。
[0014]优选地,所述调用链数据采集模块包括包括接入线上应用的APM组件,所述APM组件用于代理拦截插桩的入口。
[0015]优选地,所述监控指标包括平均耗时监控指标、失败监控指标、最大耗时监控指标,可用率监控指标,调用量监控指标、TP50警监控指标、TP90警监控指标、TP99警监控指标的配置,所述告警类型包括指定值告警、动态历史基线告警、相同方向偏移告警和趋势突变告警。
[0016]优选地,所述分析模块包括:告警记录归类模块:用于将告警记录按应用、服务、方法、接口维度进行归类,并合并告警内容;告警树展示模块:用于根据告警信息关联的调用链信息,生成多个节点的告警树状结构;源头分析模块:用于对告警记录按照树状结构进行排序,并分析慢方法源头。
[0017]本专利技术提供了一种基于调用链数据的监控告警和溯源方法及系统,针对不同的应用场景配置不同的告警策略,实现对接口多维度、多类型的监测和告警;通过慢方法分析模块,对系统缓慢的异常指标进行快速全面的分析,从而高效率定位业务影响面和慢方法的源头,直观展示告警源头;
通过调用链分析模块,从而对具体接口的调用链进行分析,并提供友好的界面关联调用链节点和应用日志,从而进一步分析故障接口处理逻辑和耗时资源分布。
附图说明
[0018]通过附图中所示的本专利技术优选实施例更具体说明,本专利技术上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分,且并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本专利技术的主旨。
[0019]图1为现有技术中APM框架示意图;图2为本专利技术优选实施例的方法的整体流程示意图;图3为本专利技术优选实施例的APM架构示意图;图4为本专利技术优选实施例的接口告警系统整体架构示意图;图5为本专利技术优选实施例的接口分析算法处理流程图;图6为本专利技术优选实施例的均线告警效果示意图;图7为本专利技术优选实施例的相临数值比较检测算法的告警效果示意图;图8为本专利技术优选实施例的离群点检测算法的告警效果示意图。
具体实施方式
[0020]下面结合附图和具体实施例对本专利技术技术方案作进一步的详细描述,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
[0021]如图1

3所示,一种基于调用链数据的监控告警和溯源方法,包括如下步骤:S1、线上应用接入APM组件,从而代理拦截插桩的入口;S2、当APM组件拦截到接口本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于调用链数据的监控告警和溯源方法,其特征在于,包括如下步骤:S1、线上应用接入APM组件,从而代理拦截插桩的入口;S2、当APM组件拦截到接口的调用时,采集该接口调用链日志并发送到kafka消息队列,同时,将该接口调用链日志存储到ES数据库;S3、APM服务端对ES数据库内的调用链信息进行处理,将其处理合并成时间粒度的接口统计数据后,再次发送到kafka消息队列,然后,将该接口统计数据存储到时序数据库;S4、根据具体的应用场景配置告警策略并添加相应的监控指标;S5、根据步骤S4中配置的告警策略和添加的监控指标,生成相应的告警记录;然后,根据步骤S1中的接口统计数据,将告警记录进行归类,形成树状结构的告警调用树,并进行直观展示,从而快速获知系统缓慢根源。2.如权利要求1所述的监控告警和溯源方法,其特征在于,该监控告警和溯源方法还包括以下步骤:S6、根据调用链的详情和应用日志进行总展示分析:根据告警记录查找符合条件的调用链;然后,根据调用链的TraceId及节点SpanId筛选对应的应用日志,从而提供对照分析,进一步定位系统缓慢的根因。3.如权利要求1所述的监控告警和溯源方法,其特征在于,所述APM组件为java agengt组件;所述接口统计数据包括时间戳、应用、服务、方法、接口、平均耗时、最大耗时、总调用次数、失败调用次数、TP50、TP90和TP99;所述时间粒度为一分钟粒度。4.如权利要求3所述的监控告警和溯源方法,其特征在于,步骤S4中,生成告警记录的所述告警策略包括指定值策略、动态历史基线策略、相同方法偏移策略和趋势突变策略中的任意一种。5.如权利要求4所述的监控告警和溯源方法,其特征在于,步骤S4中,所述监控指标包括平均耗时监控指标、失败监控指标、最大耗时监控指标、可用率监控指标、调用量监控指标、TP50监控指标、TP90监控指标和TP99监控指标...

【专利技术属性】
技术研发人员:黄宇明杨菲李刚
申请(专利权)人:中邮消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1