一种云中心运维的告警关联度分析方法及系统技术方案

技术编号:22649249 阅读:17 留言:0更新日期:2019-11-26 17:56
本发明专利技术公开一种云中心运维的告警关联度分析方法及系统,涉及运维告警技术领域。针对出现海量告警时让运维人员一头雾水、无法快速定位告警根源的问题,采用技术方案:采集历史告警数据,获取告警指标;按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类;用户通过待分析告警指标配置模块设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项;启动告警关联度分析模块,读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;设置关联度查询接口模块,将告警关联度分析模块输出的计算结果发送至告警平台。本发明专利技术旨在提高告警的可用性,分析出告警的根源,减少运维人员的工作量。

An alarm correlation analysis method and system for cloud center operation and maintenance

The invention discloses an alarm correlation analysis method and system for cloud center operation and maintenance, which relates to the technical field of operation and maintenance alarm. In view of the problem that the operation and maintenance personnel are confused and unable to locate the root cause of the alarm quickly when there are massive alarms, the technical scheme is adopted: collect historical alarm data and obtain alarm indicators; classify the obtained alarm indicators according to the time dimension, component dimension and alarm level dimension; the user sets the association analysis information through the alarm indicator configuration module to be analyzed and configures the information to be analyzed The analysis task of correlation degree analysis is to specify the correlation items for correlation degree analysis; the alarm correlation degree analysis module is started to read the correlation items and historical alarm data for correlation degree analysis and calculation; the correlation degree query interface module is set to send the calculation results output by the alarm correlation degree analysis module to the alarm platform. The invention aims to improve the availability of alarm, analyze the root cause of alarm and reduce the workload of operation and maintenance personnel.

【技术实现步骤摘要】
一种云中心运维的告警关联度分析方法及系统
本专利技术涉及运维告警
,具体的说是一种云中心运维的告警关联度分析方法及系统,该方法及系统不单独指网络或者设备告警等单一类型告警,主要应用于云中心运维,旨在提高云中心运维的告警准确率,提高运维效率。
技术介绍
在云计算时代,运维对于云中心的重要性不言而喻。在当前互联网发展的时代,客户满意度直接决定了云服务厂商营收,面对海量客户需求,对服务提供及消费提出了更高的要求,提升客户满意度,增加客户粘性。这是服务提供方急需解决的诉求。在实际的运维中,告警的出现没有规律性,并不呈现规则分布,往往在某一时段忽然间出现大量告警,但是告警的呈现具有维度单一性、重复性,例如只发送CPU负荷过高的告警、应用无法访问的告警、带宽利用率告警。海量告警的出现让运维人员一头雾水,无法快速定位。最常见的做法是收到了告警,然后登陆CRT,开始敲各种命令查找原因,这种操作存在运维效率低、用户满意度低的问题,同时,告警平台也会出现负载高,业务吞吐慢的问题。针对这种问题,提出一种云中心运维的告警关联度分析方法及系统,一方面通过让告警呈现收敛趋势并且准确,提高告警的可用性,另一方面通过计算告警关联性,分析出告警的根源,减少运维人员的工作量,提高运维效率,最终提高客户满意度。
技术实现思路
本专利技术针对出现海量告警时让运维人员一头雾水、无法快速定位告警根源的问题,提出一种云中心运维的告警关联度分析方法及系统,主要应用于云中心运维,旨在提高告警的可用性,分析出告警的根源,减少运维人员的工作量。首先,本专利技术公开一种云中心运维的告警关联度分析方法,解决上述技术问题采用的技术方案如下:一种云中心运维的告警关联度分析方法,包括如下步骤:S10、采集历史告警数据,获取告警指标;S20、按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类;S30、用户通过待分析告警指标配置模块设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;S40、启动告警关联度分析模块,读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;S50、设置关联度查询接口模块,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送告警信息。在步骤S10中,所述告警数据包含指标名称、指标ID、指标值、指标阈值,产生时间、产生组件、告警标题、告警级别、故障号、告警状态、告警类型、设备类型、设备数据接口。在步骤S20中,所述告警指标的时间维度由告警指标的采集时间粒度决定,所述告警信息的时间维度包括5分钟、15分钟、30分钟和60分钟四种;告警信息的组件维度就是监控指标所属的设备,监控指标所属的设备包括且不限于CPU、内存、网络、带宽;告警信息的告警等级维度根据影响范围不同设定为一般告警、重要告警、紧急告警、严重告警四类。在步骤S20中,按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类,具体操作包括:S21、按照时间维度对告警指标进行描述,描述后表示为:告警指标-时间维度;S22、按照组件维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度;S23、按照告警等级维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度-告警等级维度;S24、将时间维度-组件维度-告警等级维度相同的告警指标划分为同类告警信息;S25、建立存储告警信息的数据库,告警关联度分析模块可以从数据库提取告警信息。在步骤S30中,所述关联项包括基础资源型告警、网络性能告警、应用性能告警;所述基础资源型指标告警关联项包括CPU占比、内存占比;所述网络性能指标告警关联项包括带宽利用率、网络延时及连接建立时间;所述应用性能指标告警关联项包括网络协议告警、应用响应时间及服务端重置率;运维人员根据告警指标所属层级和维度指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标。在步骤S40中,进行关联度分析计算的具体操作包括:S41、将同一类告警信息包含的告警指标依次记作KPI1、KPI2、KPI3、……、KPIn;S42、读取同一类告警信息的告警总数;S43、分别读取同一类告警信息中任两个告警指标KPIi、KPIj的告警次数;S44、读取告警指标KPIi时,同时获取告警指标KPIi的告警发生时间ALARM_TIME;S45、根据告警指标KPIi的告警发生时间ALARM_TIME进行计算时间点,向前10分钟,向后10分钟,并查询告警指标KPIj在此时间段内是否发生告警,如果存在告警指标KPIi、KPIj同时发生告警的情况,则对告警指标KPIi、KPIj的告警次数同时加一;S46、将告警指标KPIi、KPIj同时发生告警的次数与告警总数相比,得到告警指标KPIi和KPIj的支持度P(KPIiUKPIj),将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIi的告警次数相比,得到告警指标KPIi和KPIj的置信度P(KPIi|KPIj),将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIj的告警次数相比,得到告警指标KPIj和KPIi的置信度P(KPIj|KPIi),计算告警指标KPIi和KPIj的置信度P(KPIi|KPIj)、告警指标KPIj和KPIi的置信度P(KPIj|KPIi)两者的比值,得到告警指标KPIi对KPIj的提升度;S47、在告警指标KPIi对KPIj的提升度等于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj没有关联性,在告警指标KPIi对KPIj的提升度小于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj相互排斥,在告警指标KPIi对KPIj的提升度大于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj有关联性。在步骤S50中,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送立体告警信息,所述立体告警信息包含告警位置、告警具体原因、以及与告警位置具有关联性但是未发生告警的组件信息。其次,本专利技术还公开一种云中心运维的告警关联度分析系统,解决上述技术问题采用的技术方案如下:一种云中心运维的告警关联度分析系统,其包括:采集模块,用于采集历史告警数据,获取告警指标;分类模块,用于按照时间维度、组件维度、告警等级维度对获取的告警指标进行分类;待分析告警指标配置模块,用于设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;告警关联度分析模块,用于读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;关联度查询接口模块,用于通信连接告警关联度分析模块和告警平台,本文档来自技高网...

【技术保护点】
1.一种云中心运维的告警关联度分析方法,其特征在于,包括如下步骤:/nS10、采集历史告警数据,获取告警指标;/nS20、按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类;/nS30、用户通过待分析告警指标配置模块设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;/nS40、启动告警关联度分析模块,读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;/nS50、设置关联度查询接口模块,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送告警信息。/n

【技术特征摘要】
1.一种云中心运维的告警关联度分析方法,其特征在于,包括如下步骤:
S10、采集历史告警数据,获取告警指标;
S20、按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类;
S30、用户通过待分析告警指标配置模块设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;
S40、启动告警关联度分析模块,读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;
S50、设置关联度查询接口模块,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送告警信息。


2.根据权利要求1所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S10中,所述告警数据包含指标名称、指标ID、指标值、指标阈值,产生时间、产生组件、告警标题、告警级别、故障号、告警状态、告警类型、设备类型、设备数据接口。


3.根据权利要求1所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S20中,所述告警指标的时间维度由告警指标的采集时间粒度决定,所述告警信息的时间维度包括5分钟、15分钟、30分钟和60分钟四种;
所述告警信息的组件维度就是监控指标所属的设备,监控指标所属的设备包括且不限于CPU、内存、网络、带宽;
所述告警信息的告警等级维度根据影响范围不同设定为一般告警、重要告警、紧急告警、严重告警四类。


4.根据权利要求3所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S20中,按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类,具体操作包括:
S21、按照时间维度对告警指标进行描述,描述后表示为:告警指标-时间维度;
S22、按照组件维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度;
S23、按照告警等级维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度-告警等级维度;
S24、将时间维度-组件维度-告警等级维度相同的告警指标划分为同类告警信息;
S25、建立存储告警信息的数据库,告警关联度分析模块可以从数据库提取告警信息。


5.根据权利要求4所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S30中,所述关联项包括基础资源型告警、网络性能告警、应用性能告警;
所述基础资源型指标告警关联项包括CPU占比、内存占比;
所述网络性能指标告警关联项包括带宽利用率、网络延时及连接建立时间;
所述应用性能指标告警关联项包括网络协议告警、应用响应时间及服务端重置率;
运维人员根据告警指标所属层级和维度指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标。


6.根据权利要求4所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S40中,进行关联度分析计算的具体操作包括:
S41、将同一类告警信息包含的告警指标依次记作KPI1、KPI2、KPI3、……、KPIn;
S42、读取同一类告警信息的告警总数;
S43、分别读取同一类告警信息中任两个告警指标KPIi、KPIj的告警次数;
S44、读取告警指标KPIi时,同时获取告警指标KPIi的告警发生时间ALARM_TIME;
S45、根据告警指标KPIi的告警发生时间ALARM_TIME进行计算时间点,向前10分钟,向后10分钟,并查询告警指标KPIj在此时间段内是否发生告警,如果存在告警指标KPIi、KPIj同时发生告警的情况,则对告警指标KPIi、KPIj的告警次数同时加一;
S46、将告警指标KPIi、KPIj同时发生告警的次数与告警总数相比,得到告警指标KPIi和KPIj的支持度P(KPIiUKPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIi的告警次数...

【专利技术属性】
技术研发人员:孙继赟于昊田雨
申请(专利权)人:浪潮云信息技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1