针对互联网数据中心进行告警处理的方法及装置制造方法及图纸

技术编号:31578780 阅读:14 留言:0更新日期:2021-12-25 11:21
本说明书实施例提供了针对互联网数据中心进行告警处理的方法及装置,互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,该方法包括:响应于获取到第一告警,在故障场景集合中确定目标故障场景,目标故障场景配置有规则集合和作用范围,规则集合包括触发规则和至少一个收敛规则,第一告警满足触发规则;根据产生第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定故障设备在作用范围内的关联设备;在第一告警恢复前,获取关联设备产生的满足该至少一个收敛规则中任意的收敛规则的第二告警,并将第二告警合并到第一告警中。合并到第一告警中。合并到第一告警中。

【技术实现步骤摘要】
针对互联网数据中心进行告警处理的方法及装置


[0001]本说明书实施例涉及计算机
,具体地,涉及针对互联网数据中心进行告警处理的方法及装置。

技术介绍

[0002]现有的互联网数据中心(Internet Data Center,IDC),一般缺乏有效的告警收敛机制,致使在互联网数据中心应急响应的情况下,各机房人员时常被告警风暴淹没,无法有效从告警中得知故障根因。
[0003]因此,迫切需要一种合理、可靠的方案,可以针对互联网数据中心进行有效的告警收敛。

技术实现思路

[0004]本说明书实施例提供了针对互联网数据中心进行告警处理的方法及装置,能针对互联网数据中心进行有效的告警收敛。
[0005]第一方面,本说明书实施例提供了一种针对互联网数据中心进行告警处理的方法,所述互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,所述方法包括:响应于获取到第一告警,在故障场景集合中确定目标故障场景,所述目标故障场景配置有规则集合和作用范围,所述规则集合包括触发规则和至少一个收敛规则,所述第一告警满足所述触发规则;根据产生所述第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定所述故障设备在所述作用范围内的关联设备;在所述第一告警恢复前,获取所述关联设备产生的满足所述至少一个收敛规则中任意的收敛规则的第二告警,并将所述第二告警合并到所述第一告警中。
[0006]在一些实施例中,所述规则集合还包括用于有效告警识别的判断规则;以及在所述第一告警满足所述触发规则的同时,所述作用范围内存在满足所述判断规则的第三告警,并且所述第一告警和所述第三告警在同一目标时间窗口内产生。
[0007]在一些实施例中,所述目标故障场景还配置有场景描述信息,其中至少包括故障根因;以及在故障场景集合中确定目标故障场景之后,还包括:将所述场景描述信息补充到所述第一告警中。
[0008]在一些实施例中,所述场景描述信息还包括以下至少一项:告警内容、因故障而产生的现象、维修建议。
[0009]在一些实施例中,所述作用范围包括以下任一项:同园区、同楼栋、同系统、同包间、同机列、同机柜。
[0010]在一些实施例中,所述目标故障场景还配置有与目标系统有关的设备扣分信息和权重信息,所述目标系统为所述故障设备所在的配电拓扑结构所属的电气系统,或者所述故障设备所在的暖通拓扑结构所属的暖通系统;以及在所述将所述第二告警合并到所述第一告警中之后,还包括:根据所述第一告警和所述第二告警涉及的多个故障设备,所述设备
扣分信息,以及所述权重信息,确定所述目标系统的系统健康分。
[0011]在一些实施例中,所述目标系统由多个子系统组成,所述多个子系统中任意的子系统由至少一个设备组组成,所述至少一个设备组中任意的设备组由所述故障设备所在的配电拓扑结构或暖通拓扑结构中示出的多个设备组成;所述权重信息包括所述多个子系统分别对应的子系统权重,所述多个子系统分别包括的设备组对应的设备组权重,以及所述目标系统涉及的多个设备类型分别对应的设备权重,所述设备扣分信息包括所述多个设备类型分别对应的设备扣分;以及所述根据所述第一告警和所述第二告警涉及的多个故障设备,所述设备扣分信息,以及所述权重信息,确定所述目标系统的系统健康分,包括:根据预设的设备总分,以及所述多个故障设备分别所属的设备类型对应的设备扣分,确定所述多个故障设备各自的设备健康分;根据所述设备健康分,所述设备总分,所述多个故障设备分别所属的设备类型对应的设备权重,以及预设的设备组总分,确定所述多个故障设备所在的目标设备组的设备组健康分;根据所述设备组健康分,所述设备组总分,所述目标设备组对应的设备组权重,以及预设的子系统总分,确定所述目标设备组所在的目标子系统的子系统健康分;根据所述子系统健康分,所述子系统总分,所述目标子系统对应的子系统权重,以及预设的系统总分,确定所述目标系统的系统健康分。
[0012]第二方面,本说明书实施例提供了一种针对互联网数据中心进行告警处理的装置,所述互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,所述装置包括:场景确定单元,被配置成响应于获取到第一告警,在故障场景集合中确定目标故障场景,所述目标故障场景配置有规则集合和作用范围,所述规则集合包括触发规则和至少一个收敛规则,所述第一告警满足所述触发规则;设备确定单元,被配置成根据产生所述第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定所述故障设备在所述作用范围内的关联设备;告警收敛单元,被配置成在所述第一告警恢复前,获取所述关联设备产生的满足所述至少一个收敛规则中任意的收敛规则的第二告警,并将所述第二告警合并到所述第一告警中。
[0013]第三方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面中任一实现方式描述的方法。
[0014]第四方面,本说明书实施例提供了一种计算设备,包括存储器和处理器,其中,该存储器中存储有可执行代码,该处理器执行该可执行代码时,实现如第一方面中任一实现方式描述的方法。
[0015]第五方面,本说明书实施例提供了一种计算机程序,其中,当该计算机程序在计算机中执行时,令该计算机执行如第一方面中任一实现方式描述的方法。
[0016]本说明书的上述实施例提供的方案中的互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构。在该方案中,可以响应于获取到第一告警,在故障场景集合中确定目标故障场景,目标故障场景配置有规则集合和作用范围,规则集合包括触发规则和至少一个收敛规则,第一告警满足该触发规则,而后可以根据产生第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定故障设备在该作用范围内的关联设备,然后可以在第一告警恢复前,获取该关联设备产生的满足该至少一个收敛规则中任意的收敛规则的第二告警,并将第二告警合并到第一告警中。基于此,实现了场景化告警收
敛,通过引用拓扑关系,能使告警收敛可以基于给定作用范围内经过规则配置的相关告警,而且在第一告警恢复前,可不限制时间的按照规则进行收敛,这样能打破现有技术中告警收敛只能依赖简单的告警时间、告警设备所在位置的局限性,以及能有效避免误收敛、漏收敛的风险。因此,能针对互联网数据中心进行有效的告警收敛。
附图说明
[0017]为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0018]图1是本说明书的一些实施例可以应用于其中的一个示例性系统架构图;
[0019]图2是针对互联网数据中心进行告警处理的方法的一个实施例的流程图;
[0020]图3是层级结构的一个示意图;
[0021]图4是针对互联网数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对互联网数据中心进行告警处理的方法,所述互联网数据中心包括多个机房,其中的机房设置有配电拓扑结构和暖通拓扑结构,所述方法包括:响应于获取到第一告警,在故障场景集合中确定目标故障场景,所述目标故障场景配置有规则集合和作用范围,所述规则集合包括触发规则和至少一个收敛规则,所述第一告警满足所述触发规则;根据产生所述第一告警的故障设备所在的配电拓扑结构或暖通拓扑结构,确定所述故障设备在所述作用范围内的关联设备;在所述第一告警恢复前,获取所述关联设备产生的满足所述至少一个收敛规则中任意的收敛规则的第二告警,并将所述第二告警合并到所述第一告警中。2.根据权利要求1所述的方法,其中,所述规则集合还包括用于有效告警识别的判断规则;以及在所述第一告警满足所述触发规则的同时,所述作用范围内存在满足所述判断规则的第三告警,并且所述第一告警和所述第三告警在同一目标时间窗口内产生。3.根据权利要求1或2所述的方法,其中,所述目标故障场景还配置有场景描述信息,其中至少包括故障根因;以及在故障场景集合中确定目标故障场景之后,还包括:将所述场景描述信息补充到所述第一告警中。4.根据权利要求3所述的方法,其中,所述场景描述信息还包括以下至少一项:告警内容、因故障而产生的现象、维修建议。5.根据权利要求1所述的方法,其中,所述作用范围包括以下任一项:同园区、同楼栋、同系统、同包间、同机列、同机柜。6.根据权利要求1

2、4

5之一所述的方法,其中,所述目标故障场景还配置有与目标系统有关的设备扣分信息和权重信息,所述目标系统为所述故障设备所在的配电拓扑结构所属的电气系统,或者所述故障设备所在的暖通拓扑结构所属的暖通系统;以及在所述将所述第二告警合并到所述第一告警中之后,还包括:根据所述第一告警和所述第二告警涉及的多个故障设备,所述设备扣分信息,以及所述权重信息,确定所述目标系统的系统健康分。7.根据权利要求6所述的方法,其中,所述目标系统由多个子系统组成,所述多个子系统中任意的子系统由至少一个设备组组成,所述至少一个设备组中任意的设备组由所述故障设备所在的配电拓扑结构或暖通拓扑结构中示出的多个设备组...

【专利技术属性】
技术研发人员:吕畅王冠曹峻张动动曾峰
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1