一种基于云计算的智能监控分析方法及系统技术方案

技术编号:35859687 阅读:14 留言:0更新日期:2022-12-07 10:48
本发明专利技术涉及云环境下智能运维技术领域,具体为一种基于云计算的智能监控分析方法,包括以下步骤:基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;基于异常KPI进行分析定位,定位异常发生原因;有益效果为:本发明专利技术提出的基于云计算的智能监控分析方法及系统实现快速定位云服务异常信息,提升客户的满意度,依托云计算建立智能监控服务,合并现有的监控孤岛,通过AI等手段加强数据分析以及监控功能,保证客户云上业务平稳运行的同时,降低告警风暴发生的影响,帮助运维人员快速响应告警,定位告警发生根本原因并智能推荐解决方法。根本原因并智能推荐解决方法。根本原因并智能推荐解决方法。

【技术实现步骤摘要】
一种基于云计算的智能监控分析方法及系统


[0001]本专利技术涉及云环境下智能运维
,具体为一种基于云计算的智能监控分析方法及系统。

技术介绍

[0002]近年来,全球云计算支出以及云服务的需求出现了爆发式增长,云服务已经深入到社会的各个领域,运维人员每天需要面对TB乃至PB数量级的性能指标数据,传统运维面临挑战。
[0003]现有技术中,在面对海量KPI数据的同时,运维人员需要及时的发现、处理告警,然而数据爆炸的云时代传统运维人工巡检的方式不再合适,告警的信息价值在于实时性、准确性。
[0004]但是,随着业务场景的不断复杂,客户对应用上云的需求也越来越严苛,运维人员处理告警的效率也必须提高,因此运维人员需要一种云环境中的智能监控方法,不仅可以帮助运维人员快速响应,还能根据告警、资源等信息分析出告警发生的根本原因。

技术实现思路

[0005]本专利技术的目的在于提供一种基于云计算的智能监控分析方法及系统,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于云计算的智能监控分析方法,所述基于云计算的智能监控分析方法包括以下步骤:
[0007]基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;
[0008]基于异常KPI进行分析定位,定位异常发生原因;
[0009]基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;
[0010]通过告警规则管理对实时处理过程进行控制。
[0011]优选的,检测异常KPI时,通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;
[0012]将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状。
[0013]优选的,定位异常发生原因时,采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;
[0014]为用户提供容量预警通知时,KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知。
[0015]优选的,过告警规则管理对实时处理过程进行控制包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;
[0016]告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚纳管;
[0017]业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;
[0018]告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;
[0019]告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。
[0020]优选的,告警场景分析时,初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数。
[0021]一种基于云计算的智能监控分析系统,所述该系统由数据预处理模块、定位模块、推送模块以及告警处理分析模块构成;
[0022]数据预处理模块,用于基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;
[0023]定位模块,用于基于异常KPI进行分析定位,定位异常发生原因;
[0024]推送模块,用于基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;
[0025]告警处理分析模块,用于通过告警规则管理对实时处理过程进行控制。
[0026]优选的,所述数据预处理模块中,检测异常KPI时,通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;
[0027]将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状。
[0028]优选的,所述定位模块中,定位异常发生原因时,采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;
[0029]推送模块中,KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知。
[0030]优选的,所述告警处理分析模块包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;
[0031]告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚
纳管;
[0032]业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;
[0033]告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;
[0034]告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。
[0035]优选的,所述告警处理分析模块中告警场景分析时,初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数。
[0036]与现有技术相比,本专利技术的有益效果是:
[0037]本专利技术提出的基于云计算的智能监控分析方法及系统实现快速定位云服务异常信息,提升客户的满意度,依托云计算建立智能监控服务,合并现有的监控孤岛,通过AI等手段加强数据分析以及监控功能,保证客户云上业务平稳运行的同时,降低告警风暴发生的影响,帮助运维人员快速响应告警,定位告警发生根本原因并智能推荐解决本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于云计算的智能监控分析方法,其特征在于:所述基于云计算的智能监控分析方法包括以下步骤:基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;基于异常KPI进行分析定位,定位异常发生原因;基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;通过告警规则管理对实时处理过程进行控制。2.根据权利要求1所述的一种基于云计算的智能监控分析方法,其特征在于:检测异常KPI时,通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状。3.根据权利要求2所述的一种基于云计算的智能监控分析方法,其特征在于:定位异常发生原因时,采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;为用户提供容量预警通知时,KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知。4.根据权利要求3所述的一种基于云计算的智能监控分析方法,其特征在于:通过告警规则管理对实时处理过程进行控制包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚纳管;业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。5.根据权利要求4所述的一种基于云计算的智能监控分析方法,其特征在于:告警场景分析时,初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数。6.一种如上述权利要求1

5任意一项所述的基于云计算的智能监控分析系统,其特征在...

【专利技术属性】
技术研发人员:任寿杰
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1