一种基于有向无环拓扑网的应用集群健康检测方法及系统技术方案

技术编号:41010924 阅读:20 留言:0更新日期:2024-04-18 21:47
本发明专利技术涉及分布式应用集群健康监控、拓扑网络检测技术领域,具体涉及一种基于有向无环拓扑网的应用集群健康检测方法及系统,该方法包括:获取业务应用集群的Tracing数据构建有向无环拓扑网络DAG;分裂有向无环拓扑网络得到可评价子路径集合;生成并根据可评价子路径集合的第二历史指标快照对各可评价子路径进行健康评价得到第一健康评分值,对各第一健康评分值加权求和得到业务应用集群的第二健康评分值,根据第二健康评分值判断是否进行预警。本发明专利技术通过结合有向无环拓扑网与指标检测形成应用集群的健康度评价模型,能准确发现业务的子路径异常,快速定位问题根源,减少误告率,直观评估对业务的影响面。

【技术实现步骤摘要】

本专利技术涉及分布式应用集群健康监控、拓扑网络检测,具体而言,涉及一种基于有向无环拓扑网的应用集群健康检测方法及系统


技术介绍

1、随着微服务技术的广泛使用,越来越多企业在构建大型应用时将大模块拆解成各个小模块,一些核心产品功能通常由多个团队协作开发,调用链路深度可能达到几十个服务,每个服务的变更都可能导致业务异常故障。如何探查复杂大型应用调用网络的健康度来预防故障成为一个企业的运维难点。

2、在正常的业务模块升级流程中,通常会采用灰度升级模式在业务低峰期逐步梯度线上版本,升级的影响面依赖于操作人对于架构的熟悉程度来观察服务升级对于业务的黄金指标影响,风险程度对于人依赖性较强。传统处理这类问题的方法,通常是服务负责人、运维人员以人工值班1-2个高峰期观测服务运行状态,出现问题立即回退,如果是同一功能在同一个周期升级多个服务,在不确定问题根源时执行及时止损策略时可能导致大面积的服务回退,使得每次业务的版本迭代成本高、风险大。在大型微服务应用集群中,升级几乎每天都在进行,依赖于指标异常出现故障事后处理的方式已不能满足大型集群的管理,并且治理成本较本文档来自技高网...

【技术保护点】

1.一种基于有向无环拓扑网的应用集群健康检测方法,其特征在于,包括:

2.根据权利要求1所述的基于有向无环拓扑网的应用集群健康检测方法,其特征在于,在根据所述Tracing数据构建有向无环拓扑网络DAG时,包括:

3.根据权利要求2所述的基于有向无环拓扑网的应用集群健康检测方法,其特征在于,在通过递归多路径查找算法分裂产生第一子路径集合后,包括:

4.根据权利要求3所述的基于有向无环拓扑网的应用集群健康检测方法,其特征在于,在生成各第一子路径性能指标的第一指标历史快照并按时间维度存储后,包括:

5.根据权利要求4所述的基于有向无环拓扑网的应...

【技术特征摘要】

1.一种基于有向无环拓扑网的应用集群健康检测方法,其特征在于,包括:

2.根据权利要求1所述的基于有向无环拓扑网的应用集群健康检测方法,其特征在于,在根据所述tracing数据构建有向无环拓扑网络dag时,包括:

3.根据权利要求2所述的基于有向无环拓扑网的应用集群健康检测方法,其特征在于,在通过递归多路径查找算法分裂产生第一子路径集合后,包括:

4.根据权利要求3所述的基于有向无环拓扑网的应用集群健康检测方法,其特征在于,在生成各第一子路径性能指标的第一指标历史快照并按时间维度存储后,包括:

5.根据权利要求4所述的基于有向无环拓扑网的应用集群健康检测方法,其特征在于,在通过将各第一子路径合并...

【专利技术属性】
技术研发人员:李奇会李煜新黄坚王华夏
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1