一种定位故障的方法和设备技术

技术编号:14135754 阅读:57 留言:0更新日期:2016-12-10 03:24
本发明专利技术公开了一种定位故障的方法和设备,包括:接收至少一个故障告警;根据故障告警中包含的发出故障告警的第一网络节点的标识和第一网络节点发出故障告警的告警类型,查找满足第一网络节点发出故障告警的告警类型对应的依赖规则且包含第一网络节点的依赖传递关系;根据所述依赖传递关系,确定包含第一网络节点和与第一网络节点具备依赖传递关系的其他网络节点的依赖链;根据依赖链中包含的各个其他网络节点的工作状态,从依赖链中包含的各个所述其他网络节点中,定位导致第一网络节点发生故障的网络节点,有效地避免依据预设故障规则导致的定位故障效率低的问题,提升定位故障发生根源的效率。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种定位故障的方法和设备
技术介绍
在数据中心维护中,当设备发生故障导致设备功能失效时,除了发生故障的设备会发出告警之外,与发生故障设备具备关联关系的设备也会发出告警。这样大量的告警将降低维护人员确定故障发生根源的效率,额外增加维护人员修复故障的时间。目前,为了快速定位故障根源,提出了基于故障规则关联告警的方案。该方案预设故障规则,将发生的所有告警导入故障规则引擎中,由故障规则引擎利用预设的故障规则定位发生故障的根源。例如:设备1、设备2和设备3同时发生故障时,根据预设的故障规则(例如:设备1发生故障会导致故障2发生故障、故障2发生故障会导致故障3发生故障),定位发生故障的根源为设备1发生故障。仍以上述事实为例,设备1、设备2和设备3同时发生故障时,根据预设的故障规则(例如:包含设备1发生故障会导致故障2发生故障,而没有包含故障2发生故障会导致故障3发生故障),此时根据目前确定故障根源的方式,只能确定设备1为设备2发生故障的根源,但是无法确定设备1是否也是导致设备3发生故障的根源。由此可见,目前故障根源的确定方式依据预设的故障规则,相对比较固定,使得定位故障的效率比较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种定位故障的方法和设备,用以解决目
前故障定位效率低的问题。第一方面,提供了一种定位故障的方法,包括:接收至少一个故障告警,其中,每一个所述故障告警中包含发出故障告警的第一网络节点的标识和所述第一网络节点发出故障告警的告警类型,所述告警类型包含应用类型、链路类型、设备类型中的至少一种;根据所述故障告警中包含的发出故障告警的第一网络节点的标识和所述第一网络节点发出故障告警的告警类型,查找满足所述第一网络节点发出故障告警的告警类型对应的依赖规则且包含所述第一网络节点的依赖传递关系;根据所述依赖传递关系,确定包含所述第一网络节点和与所述第一网络节点具备依赖传递关系的其他网络节点的依赖链,其中,所述依赖链用于表征从所述第一网络节点到各个所述其他网络节点之间的依赖传递关系,所述依赖传递关系包括连接关系、包含关系中的至少一种;根据所述依赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点。结合第一方面可能的实施方式,在第一方面的第一种可能的实施方式中,所述依赖规则包含应用类型依赖于链路类型,链路类型依赖于设备类型中的至少一种;根据所述故障告警中包含的发出故障告警的第一网络节点的标识和所述第一网络节点发出故障告警的告警类型,查找满足所述第一网络节点发出故障告警的告警类型对应的依赖规则且包含所述第一网络节点的依赖传递关系,包括:根据所述故障告警中包含的所述第一网络节点发出故障告警的告警类型,确定满足所述告警类型的依赖规则;根据所述依赖规则和所述故障告警中包含的发出故障告警的第一网络节点的标识,查找包含所述第一网络节点的依赖传递关系。结合第一方面可能的实施方式,或者结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式中,根据所述依赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点,包括:从所述依赖链中处于最上游的网络节点开始,依次执行以下操作,直至所述依赖链中包含的各个所述其他网络节点执行完毕结束:确定执行本轮操作的第二网络节点;根据所述第二网络节点的工作状态、其具备直接依赖传递关系的下游网络节点的工作状态以及其具备直接依赖传递关系的上游网络节点的工作状态,判断所述第二网络节点是否为导致所述第一网络节点发生故障的网络节点;若判断结果为是时,则将所述第二网络节点写入故障根源列表中,继续选择与所述第二网络节点具备直接依赖传递关系的下游网络节点为执行下一轮操作的网络节点;若判断结果为否时,则选择与所述第二网络节点具备直接依赖传递关系的下游网络节点为执行下一轮操作的网络节点;在所述依赖链中包含的各个所述其他网络节点执行完毕时,将所述故障根源列表中包含的网络节点定位为导致所述第一网络节点发生故障的网络节点;其中,所述依赖链中处于最上游的网络节点是指根据依赖传递关系,在所述依赖链中,该网络节点依赖于所述依赖链中除了该网络节点之外的其他网络节点。结合第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,根据所述第二网络节点的工作状态、其具备直接依赖传递关系的下游网络节点的工作状态以及其具备直接依赖传递关系的上游网络节点的工作状态,判断所述第二网络节点是否为导致发出所述故障告警的网络节点发生故障的网络节点,包括:在所述第二网络节点的工作状态为非正常状态时,进一步确定其不具备直
接依赖传递关系的下游网络节点,或者其具备直接依赖传递关系的下游网络节点的导致所述第一网络节点发生故障的故障根源的嫌疑程度值大于设定第一阈值时,确定所述第二网络节点为导致所述第一网络节点发生故障的网络节点。结合第一方面可能的实施方式,或者结合第一方面的第一种可能的实施方式,或者结合第一方面的第二种可能的实施方式,或者结合第一方面的第三种可能的实施方式,在第一方面的第四种可能的实施方式中,根据所述依赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点,包括:若确定的所述依赖链的个数为至少两个时,分别计算与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值;从计算得到的多个故障根源的嫌疑程度值中选择数值大于设定第二阈值的故障根源的嫌疑程度值;根据选择的所述故障根源的嫌疑程度值,确定包含所述故障根源的嫌疑程度值对应的所述下游网络节点和所述第一网络节点的依赖链;基于确定的所述依赖链,根据所述依赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点。结合第一方面的第三种可能的实施方式,或者结合第一方面的第四种可能的实施方式,在第一方面的第五种可能的实施方式中,计算与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值:确定与所述下游网络节点具备依赖传递关系的上游网络节点的总个数值;以及确定所述上游网络节点中工作状态处于非正常状态的网络节点的第一个数值;对于所述上游网络节点中工作状态处于非正常状态的网络节点,根据各个所述处于非正常状态的网络节点发出故障告警的程度值,分别统计得到属于同一种故障告警程度级别的网络节点的第二个数值;根据确定的所述总个数值、所述第一个数值和所述第二个数值,计算得到与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值。结合第一方面的第五种可能的实施方式,在第一方面的第六种可能的实施方式中,根据确定的所述总个数值、所述第一个数值和所述第二个数值,计算得到与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值,包括:通过以下方式计算得到与所述第一网络本文档来自技高网
...
一种定位故障的方法和设备

【技术保护点】
一种定位故障的方法,其特征在于,包括:接收至少一个故障告警,其中,每一个所述故障告警中包含发出故障告警的第一网络节点的标识和所述第一网络节点发出故障告警的告警类型,所述告警类型包含应用类型、链路类型、设备类型中的至少一种;根据所述故障告警中包含的发出故障告警的第一网络节点的标识和所述第一网络节点发出故障告警的告警类型,查找满足所述第一网络节点发出故障告警的告警类型对应的依赖规则且包含所述第一网络节点的依赖传递关系;根据所述依赖传递关系,确定包含所述第一网络节点和与所述第一网络节点具备依赖传递关系的其他网络节点的依赖链,其中,所述依赖链用于表征从所述第一网络节点到各个所述其他网络节点之间的依赖传递关系,所述依赖传递关系包括连接关系、包含关系中的至少一种;根据所述依赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点。

【技术特征摘要】
1.一种定位故障的方法,其特征在于,包括:接收至少一个故障告警,其中,每一个所述故障告警中包含发出故障告警的第一网络节点的标识和所述第一网络节点发出故障告警的告警类型,所述告警类型包含应用类型、链路类型、设备类型中的至少一种;根据所述故障告警中包含的发出故障告警的第一网络节点的标识和所述第一网络节点发出故障告警的告警类型,查找满足所述第一网络节点发出故障告警的告警类型对应的依赖规则且包含所述第一网络节点的依赖传递关系;根据所述依赖传递关系,确定包含所述第一网络节点和与所述第一网络节点具备依赖传递关系的其他网络节点的依赖链,其中,所述依赖链用于表征从所述第一网络节点到各个所述其他网络节点之间的依赖传递关系,所述依赖传递关系包括连接关系、包含关系中的至少一种;根据所述依赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点。2.如权利要求1所述的定位故障的方法,其特征在于,所述依赖规则包含应用类型依赖于链路类型,链路类型依赖于设备类型中的至少一种;根据所述故障告警中包含的发出故障告警的第一网络节点的标识和所述第一网络节点发出故障告警的告警类型,查找满足所述第一网络节点发出故障告警的告警类型对应的依赖规则且包含所述第一网络节点的依赖传递关系,包括:根据所述故障告警中包含的所述第一网络节点发出故障告警的告警类型,确定满足所述告警类型的依赖规则;根据所述依赖规则和所述故障告警中包含的发出故障告警的第一网络节点的标识,查找包含所述第一网络节点的依赖传递关系。3.如权利要求1或2所述的定位故障的方法,其特征在于,根据所述依
\t赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点,包括:从所述依赖链中处于最上游的网络节点开始,依次执行以下操作,直至所述依赖链中包含的各个所述其他网络节点执行完毕结束:确定执行本轮操作的第二网络节点;根据所述第二网络节点的工作状态、其具备直接依赖传递关系的下游网络节点的工作状态以及其具备直接依赖传递关系的上游网络节点的工作状态,判断所述第二网络节点是否为导致所述第一网络节点发生故障的网络节点;若判断结果为是时,则将所述第二网络节点写入故障根源列表中,继续选择与所述第二网络节点具备直接依赖传递关系的下游网络节点为执行下一轮操作的网络节点;若判断结果为否时,则选择与所述第二网络节点具备直接依赖传递关系的下游网络节点为执行下一轮操作的网络节点;在所述依赖链中包含的各个所述其他网络节点执行完毕时,将所述故障根源列表中包含的网络节点定位为导致所述第一网络节点发生故障的网络节点;其中,所述依赖链中处于最上游的网络节点是指根据依赖传递关系,在所述依赖链中,该网络节点依赖于所述依赖链中除了该网络节点之外的其他网络节点。4.如权利要求3所述的定位故障的方法,其特征在于,根据所述第二网络节点的工作状态、其具备直接依赖传递关系的下游网络节点的工作状态以及其具备直接依赖传递关系的上游网络节点的工作状态,判断所述第二网络节点是否为导致发出所述故障告警的网络节点发生故障的网络节点,包括:在所述第二网络节点的工作状态为非正常状态时,进一步确定其不具备直接依赖传递关系的下游网络节点,或者其具备直接依赖传递关系的下游网络节点的导致所述第一网络节点发生故障的故障根源的嫌疑程度值大于设定第一阈值时,确定所述第二网络节点为导致所述第一网络节点发生故障的网络节点。5.如权利要求1至4任一项所述的定位故障的方法,其特征在于,根据所述依赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点,包括:若确定的所述依赖链的个数为至少两个时,分别计算与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值;从计算得到的多个故障根源的嫌疑程度值中选择数值大于设定第二阈值的故障根源的嫌疑程度值;根据选择的所述故障根源的嫌疑程度值,确定包含所述故障根源的嫌疑程度值对应的所述下游网络节点和所述第一网络节点的依赖链;基于确定的所述依赖链,根据所述依赖链中包含的各个所述其他网络节点的工作状态,从所述依赖链中包含的各个所述其他网络节点中,定位导致所述第一网络节点发生故障的网络节点。6.如权利要求4或5所述的定位故障的方法,其特征在于,计算与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值:确定与所述下游网络节点具备依赖传递关系的上游网络节点的总个数值;以及确定所述上游网络节点中工作状态处于非正常状态的网络节点的第一个数值;对于所述上游网络节点中工作状态处于非正常状态的网络节点,根据各个所述处于非正常状态的网络节点发出故障告警的程度值,分别统计得到属于同一种故障告警程度级别的网络节点的第二个数值;根据确定的所述总个数值、所述第一个数值和所述第二个数值,计算得到与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值。7.如权利要求6所述的定位故障的方法,其特征在于,根据确定的所述总个数值、所述第一个数值和所述第二个数值,计算得到与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值,包括:通过以下方式计算得到与所述第一网络节点具备直接依赖传递关系的下游网络节点导致所述第一网络节点发生故障的故障根源的嫌疑程度值: S 1 i = 0 , m 1 i = 1 , n 1 i ≠ 1 ( m 1 i - 1 ) + m 1 i n 1 i , other + 100 , w 1 i ≠ 0 0 , others ; ]]>其中,S1i为计算得到与所述第一网络节点具备直接依赖传递关系的该第1i下游网络节点导致发出所述故障告警的网络节点发生故障的故障根...

【专利技术属性】
技术研发人员:王烽梁治平
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1