一种云计算环境下业务端到端的故障监测方法技术

技术编号:32222628 阅读:22 留言:0更新日期:2022-02-09 17:27
本发明专利技术涉及一种云计算环境下业务端到端的故障监测方法。基于云池,网络,设备,业务四个维度的实时监测,并结合静态、动态阈值算法,实时监测各个维度的相关故障,建立IaaS、PaaS到SaaS三层的故障监测体系,全方位地进行故障的分析和诊断,从而为业务故障快速定位提供准确的手段,提高业务的服务质量,提高客服满意度。度。度。

【技术实现步骤摘要】
一种云计算环境下业务端到端的故障监测方法


[0001]本专利技术涉及通过云计算环境下部署探针和集成采集程序领域,具体涉及一种云计算环境下业务端到端的故障监测方法。

技术介绍

[0002]随着云计算的飞速发展,许多电信运营商许多业务都已上云。而云计算环境聚集了大量的物理资源和虚拟资源,并提供了 IaaS,PaaS 和 SaaS 等多个层次的服务。IaaS,PaaS层的故障经常会导致SaaS层故障,而IaaS,PaaS和SaaS各层均有可能存在多个环节或节点。而由于云计算服务数据的多样性以及部署环境的动态性,当宿主机故障或是性能瓶颈时云计算节点时常会出现动态迁移,从一台宿主机动态迁移到另一台宿主机,而这过程中容易导致异常,且异常通常会转化为严重的故障,造成服务失效。而且,在运行过程中出现异常的节点可能会导致与其相关联的其他节点发生异常,并进一步引起大规模的服务失效。另一方面,采集节点的云主机也会由于自身的动态性,导致对外网络连接失效而误判故障,造成干扰,影响警报的可信度。目前,经常是当发现服务失效时,先从业务服务一端端排查最后到末端物理资源节点,需要跨部门协作,故障定位慢,故障处理耗时长。因此,云计算环境下相关节点的异常监测和正确判障是一个亟待解决的问题。

技术实现思路

[0003]本专利技术的目的在于提供一种云计算环境下业务端到端的故障监测方法,以增强云计算环境下业务故障定位和处理的效率以及提高判障的正确率。
[0004]为实现上述目的,本专利技术的技术方案是:一种云计算环境下业务端到端的故障监测方法,包括如下步骤:步骤S1、部署集成采集服务通过API接口对接云资源池,获取云资源池上承载业务的云主机、宿主机和计算资源池信息;步骤S2、在同一个计算资源池内的宿主机上部署采集探针分别采集各宿主机上的IaaS层性能监测指标,并送给集成采集服务,集成采集服务根据定义的阈值判定是否有告警;步骤S3、在各云主机上部署采集探针,分别采集各云主机的IaaS层性能指标;步骤S4、在安装有PaaS组件的云主机上,部署采集探针,采集PaaS组件性能指标,并送给集成采集服务,集成采集服务根据定义的阈值判定是否有告警;步骤S5、建立交叉采集矩阵,实时在线监测宿主机、云主机网络质量,并根据时间相关性和告警一致性原则,进行告警的判定和预警;步骤S6、部署集成采集服务,采集业务服务状态指标SaaS,并根据阈值判定是否有告警;步骤S7、在各个承载业务的云主机上部署采集探针,采集相邻节点间另一端服务状态指标SaaS,然后采集探针把数据送给集成采集服务,集成采集服务根据阈值判定是否
需告警;步骤S8、自底向上绘制业务端到端全流程展示节点,并投影各节点告警和性能指标或业务指标。
[0005]相较于现有技术,本专利技术具有以下有益效果:本专利技术能够全方位地进行故障的分析和诊断,从而为业务故障快速定位提供准确的手段,提高业务的服务质量,提高客服满意度。
附图说明
[0006]图1为本专利技术中云计算环境下业务端到端的故障监测定位采集及监控预警流程图。
[0007]图2为本专利技术中云计算环境下业务端到端的故障监测定位交叉监控矩阵流程图。
具体实施方式
[0008]下面结合附图,对本专利技术的技术方案进行具体说明。
[0009]如图1、2所示,本专利技术一种云计算环境下业务端到端的故障监测方法,包括:1、如图1所示,云计算环境下业务端到端的故障监测定位采集及监控预警,具体实现逻辑如下:(1)在资源池API接口采集到的计算资源池的宿主机上部署探针,采集宿主机的性能指标,包括CPU利用率、内存利用率、文件系统空间利用率和时间,用于监测宿主机是否能够正常的运行。
[0010](2)在承载业务的云主机上安装IaaS层探针,采集云主机的性能指标,包括CPU利用率、内存利用率、文件系统空间和采集时间,用于监测承载业务的云主机是否能正常提供业务服务。
[0011](3)在承载PaaS服务的云主机上安装探针,采集PaaS组件的性能指标。例如,数据库服务的表空间利用率,消息队列的请求等待时间等性能指标和时间。
[0012](4)通过集成采集服务,采集业务服务的状态。如服务响应状态、服务响应时长和时间。
[0013](5)在承载SaaS业务服务的各节点云主机上安装探针,采集节点的另一端服务的状态和时间。
[0014](6)集成采集服务进行各采集任务的自动调度,接收探针采集到的指标数据,然后调用门限引擎监测指标数据是否超阈值,超阈值则产生告警数据。
[0015](7)将产生的告警数据进行存储,过滤等处理。
[0016](8)根据业务的逻辑端到端关系,建立端到端可视化拓扑,并将相应节点的告警投影到各拓扑节点上,以更直观的方式呈现告出来。
[0017]2、如图2所示,云计算环境下服务网络质量的交叉监控矩阵具体实施步骤如下:(1)选择在三个不同网段的云主机上各部署一套集成采集服务,建立交叉采集监控矩阵。
[0018](2)三套集成采集服务分别通过ICMP发起对目标宿主机和云主机的网络质量监测。
[0019](3)三套集成采集服务依据监控策略,调度门限引擎,判定网络质量是否超阈值告警。
[0020](4)根据时间相关性,判断三套集成采集服务采集到的网络质量告警是相关的。根据告警一致性原则,当三套采集服务都在相近时间发出了网络质量告警时,判定该告警为真实告警,否则判定为当前产生告警的集成采集服务自身的故障。
[0021](5)对被判断为的网络质量告警数据进行存储、过滤等处理。
[0022](6)将告警投影到业务端到端的可视化拓扑装置上,以区别与性能指标告警的颜色标识,以更醒目的的方式呈现出来,从而快速判断故障的位置和类型,表1为故障分类、故障类型及指标相关表。
[0023]表1以上是本专利技术的较佳实施例,凡依本专利技术技术方案所作的改变,所产生的功能作用未超出本专利技术技术方案的范围时,均属于本专利技术的保护范围。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云计算环境下业务端到端的故障监测方法,其特征在于,包括如下步骤:步骤S1、部署集成采集服务通过API接口对接云资源池,获取云资源池上承载业务的云主机、宿主机和计算资源池信息;步骤S2、在同一个计算资源池内的宿主机上部署采集探针分别采集各宿主机上的IaaS层性能监测指标,并送给集成采集服务,集成采集服务根据定义的阈值判定是否有告警;步骤S3、在各云主机上部署采集探针,分别采集各云主机的IaaS层性能指标;步骤S4、在安装有PaaS组件的云主机上,部署采集探针,采集PaaS组件性能指标,并送给集成采集服...

【专利技术属性】
技术研发人员:林德生郑生华
申请(专利权)人:中邮科通信技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1