一种基于数据中心的告警事件的全面自愈方法及系统技术方案

技术编号:27404748 阅读:12 留言:0更新日期:2021-02-21 14:17
本发明专利技术提供一种基于数据中心的告警事件的全面自愈方法,包括获取数据中心的运维数据,并基于运维数据,对告警事件是否存在进行检测;若检测到存在告警事件,则确定出发生告警事件的器件及其对应的所有关联器件,并结合运维数据,得到各关联器件的相关数据;将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比,筛选出满足预定的故障临界触发条件组合之中任一条件的关联器件。实施本发明专利技术,以达到器件全面检测,减少器件故障发生,提高安全性,降低运维成本。降低运维成本。降低运维成本。

【技术实现步骤摘要】
一种基于数据中心的告警事件的全面自愈方法及系统


[0001]本专利技术涉及互联网数据中心
,尤其涉及一种基于数据中心的告警事件的全面自愈方法及系统。

技术介绍

[0002]近年来,随着中国经济的快速发展,网络设备市场不断扩大,刺激了整个互联网行业的飞速发展。互联网数据中心(Internet Data Center,简称IDC)就是电信部门利用已有的互联网通信线路、带宽资源,建立标准化的电信专业级机房环境,为企业、政府提供服务器托管、租用以及相关增值等方面的全方位服务。而对于现在网络飞速发展的时代来说,网站系统对带宽、管理维护日益增长的高要求对很多企业构成了严峻的挑战。于是,企业开始将与网站托管服务相关的一切事物交给专门提供网络服务的IDC去做,而将精力集中在增强核心竞争力的业务中去。可见,大型的、专业的IDC机房将会更受企业的青睐。
[0003]在数据中心的系统中,数据中心连接有多条工作链(即同一系统下),而每一工作链均包含有对应的器件,如大一点的天线、服务器、交换机、路由器及PC端等,又或者小一点的CPU、电源、磁盘、内存卡、电容、电阻、继电器、传感器等,而这些器件之间工作关系紧密,每一个器件的工作参数的变化都会对同一系统下的相关联器件产生一些影响(特殊情况下会达到很大影响),轻则改变器件的工作参数,重则烧坏或损坏相邻器件。对整个数据中心来说,损坏器件虽然成本会增大,但若影响到整个系统,甚至整个数据中心的工作,则带来的经济损失不敢想象。因此,有必要对整个数据中心的器件损坏进行及时检测和处理。
[0004]目前,传统方式下的数据中心仅对发生告警事件的器件进行检测,并能得到及时处理,但是发生告警事件的器件常会与之相关联的器件存在互相影响,若关联器件不及时检测和处理,也会存在较大的安全隐患。因此,有必要提供一种新的技术方案以解决此技术问题。

技术实现思路

[0005]本专利技术实施例所要解决的技术问题在于,提供一种基于数据中心的告警事件的全面自愈方法及系统,除了会对告警事件的器件进行检测及处理,还会对该器件相关联的其它器件进行检测,以达到器件全面检测,减少器件故障发生,提高安全性,降低运维成本。
[0006]为了解决上述技术问题,本专利技术实施例提供了一种基于数据中心的告警事件的全面自愈方法,所述方法包括以下步骤:
[0007]获取数据中心的运维数据,并基于所述运维数据,对告警事件是否存在进行检测;
[0008]若检测到存在告警事件,则确定出发生告警事件的器件及其对应的所有关联器件,并结合所述运维数据,得到各关联器件的相关数据;
[0009]将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比,筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件。
[0010]其中,对发生告警事件的器件进行确定的步骤,具体为:
[0011]从所述运维数据中,提取告警事件数据,并根据预设的屏蔽策略对所述告警事件数据进行屏蔽处理,和/或根据预设的收敛策略对所述告警事件数据进行收敛处理,且进一步从屏蔽处理和/或收敛处理后的告警事件数据中,得到用于识别发生告警事件器件的识别信息,以确定出发生告警事件的器件;其中,所述识别信息包括设备ID号和设备名称。
[0012]其中,将与所述发生告警事件器件具有工作逻辑关系的器件确定为各关联器件;其中,所述工作逻辑关系包括电连接、数据传输和数据交互。
[0013]其中,基于所述发生告警事件器件的识别信息,将与所述发生告警事件器件具有相同设备名称的器件确定为各关联器件。
[0014]其中,若所述发生告警事件的器件为发热器件,则各关联器件为所述发生告警事件的器件的相邻器件;其中,所述发热器件包括电源和电阻。
[0015]其中,所述将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比,筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件的具体步骤包括:
[0016]确定各关联器件的相关数据,包括各关联器件的工作电流、工作电压、工作功率、温度和工作时长;
[0017]确定预定的故障临界触发条件组合,包括第一条件、第二条件、第三条件、第四条件和第五条件;其中,所述第一条件为关联器件的工作电流是否大于预设的安全电流;所述第二条件为关联器件的工作电压是否大于预设的安全电压;所述第三条件为关联器件的工作功率是否大于预设的安全功率;所述第四条件为关联器件的温度是否大于预设的安全温度;所述第五条件为关联器件的工作时长是否大于预设的安全时长;
[0018]将各关联器件的相关数据分别与所述预定的故障临界触发条件组合进行对比,并进一步筛选出满足所述第一条件、所述第二条件、所述第三条件、所述第四条件及所述第五条件之中任一个时的关联器件,且将所有筛选出的关联器件输出。
[0019]其中,所述方法进一步包括:
[0020]将所述发生告警事件器件的相关数据和所筛选出的各关联器件的相关数据发送给工作人员,并待接收到工作人员对所述发生告警事件器件和所筛选出的各关联器件的处理措施后,执行所接收的处理措施,以使所述发生告警事件器件恢复正常,且使所筛选出的各关联器件的相关数据均不满足所述预定的故障临界触发条件组合为止。
[0021]本专利技术实施例还提供了一种基于数据中心的告警事件的全面自愈系统,包括:
[0022]检测单元,用于获取数据中心的运维数据,并基于所述运维数据,对告警事件是否存在进行检测;
[0023]获取单元,用于若检测到存在告警事件,则确定出发生告警事件的器件及其对应的所有关联器件,并结合所述运维数据,得到各关联器件的相关数据;
[0024]筛选单元,用于将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比,筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件。
[0025]其中,所述筛选单元包括:
[0026]第一获取模块,用于确定各关联器件的相关数据,包括各关联器件的工作电流、工作电压、工作功率、温度和工作时长;
[0027]第二获取模块,用于确定预定的故障临界触发条件组合,包括第一条件、第二条
件、第三条件、第四条件和第五条件;其中,所述第一条件为关联器件的工作电流是否大于预设的安全电流;所述第二条件为关联器件的工作电压是否大于预设的安全电压;所述第三条件为关联器件的工作功率是否大于预设的安全功率;所述第四条件为关联器件的温度是否大于预设的安全温度;所述第五条件为关联器件的工作时长是否大于预设的安全时长;
[0028]筛选模块,用于将各关联器件的相关数据分别与所述预定的故障临界触发条件组合进行对比,并进一步筛选出满足所述第一条件、所述第二条件、所述第三条件、所述第四条件及所述第五条件之中任一个时的关联器件,且将所有筛选出的关联器件输出。
[0029]其中,还包括:
[0030]处理单元,用于将所述发生告警事件器件的相关数据和所筛选出的各关联器件的相关数据发送给工作人员,并待接收本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据中心的告警事件的全面自愈方法,其特征在于,所述方法包括以下步骤:获取数据中心的运维数据,并基于所述运维数据,对告警事件是否存在进行检测;若检测到存在告警事件,则确定出发生告警事件的器件及其对应的所有关联器件,并结合所述运维数据,得到各关联器件的相关数据;将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比,筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件。2.如权利要求1所述的基于数据中心的告警事件的全面自愈方法,其特征在于,对发生告警事件的器件进行确定的步骤,具体为:从所述运维数据中,提取告警事件数据,并根据预设的屏蔽策略对所述告警事件数据进行屏蔽处理,和/或根据预设的收敛策略对所述告警事件数据进行收敛处理,且进一步从屏蔽处理和/或收敛处理后的告警事件数据中,得到用于识别发生告警事件器件的识别信息,以确定出发生告警事件的器件;其中,所述识别信息包括设备ID号和设备名称。3.如权利要求2所述的基于数据中心的告警事件的全面自愈方法,其特征在于,将与所述发生告警事件器件具有工作逻辑关系的器件确定为各关联器件;其中,所述工作逻辑关系包括电连接、数据传输和数据交互。4.如权利要求2所述的基于数据中心的告警事件的全面自愈方法,其特征在于,基于所述发生告警事件器件的识别信息,将与所述发生告警事件器件具有相同设备名称的器件确定为各关联器件。5.如权利要求2所述的基于数据中心的告警事件的全面自愈方法,其特征在于,若所述发生告警事件的器件为发热器件,则各关联器件为所述发生告警事件的器件的相邻器件;其中,所述发热器件包括电源和电阻。6.如权利要求1所述的基于数据中心的告警事件的全面自愈方法,其特征在于,所述将各关联器件的相关数据分别与预定的故障临界触发条件组合进行对比,筛选出满足所述预定的故障临界触发条件组合之中任一条件的关联器件的具体步骤包括:确定各关联器件的相关数据,包括各关联器件的工作电流、工作电压、工作功率、温度和工作时长;确定预定的故障临界触发条件组合,包括第一条件、第二条件、第三条件、第四条件和第五条件;其中,所述第一条件为关联器件的工作电流是否大于预设的安全电流;所述第二条件为关联器件的工作电压是否大于预设的安全电压;所述第三条件为关联器件的工作功率是否大于预设的安全功率;所述第四条件为关联器件的温度是否大于预设的安全温度;所述第五条件为关联器件的工作时长是否大于预设的安全时长;将各关联器件的相关数据分别与所述预定的故障临界触发条件组合进行对比,并进一步筛选出满足所述第...

【专利技术属性】
技术研发人员:陈瑞冷迪李英
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1