基于拨测数据的数据中心网络故障节点诊断方法及系统技术方案

技术编号:19649111 阅读:35 留言:0更新日期:2018-12-05 21:15
本发明专利技术属于监督,监控或测试装置技术领域,公开了一种基于拨测数据的数据中心网络故障节点诊断方法及系统,依据现有的故障探测信息生成动态广度优先生成树作为节点间的探测路径;基于给定的先验概率p分析拨测数据来初步确定网络成员的故障概率;通过分析概率分配函数选择一个合理的阈值来识别故障节点,将可疑节点集分类为故障节点集和正常节点集。与HFD算法相比,HBFD算法在检测数量和诊断精度方面都有更好的性能。在不同规模的网络拓扑中都能在较低的探测次数下准确识别网络中的故障节点。为了诊断网络中的恶意节点或其他类型的故障,将新方法引入HBFD也具有一定的研究价值。

【技术实现步骤摘要】
基于拨测数据的数据中心网络故障节点诊断方法及系统
本专利技术属于监督,监控或测试装置
,尤其涉及一种基于拨测数据的数据中心网络故障节点诊断方法及系统。
技术介绍
目前,业内常用的现有技术是这样的:随着大数据时代的到来,云计算需求的不断增加使得数据中心网络规模不断扩大。如今,数据中心网络包含数十万台通过网络接口卡(NIC),交换机和路由器,电缆和光纤连接的服务器,这些服务器大部分是分布式的并且具有高流量。在大型系统中,检测和定位故障对于网络管理系统通过故障恢复机制恢复网络通信非常重要。尽管有许多研究都致力于故障诊断策略,仍有如下所述的问题需要解决。1)诊断复杂性:除了为故障定位带来更高的时间和空间复杂度外,由于动态,不完整和不确定的信息,网络规模的增加也会导致更复杂的故障诊断。因此,有效降低故障诊断的探测次数和探测效率十分有意义的。2)网络负载增加:数据中心可以大大缩短算法执行时间,但也会导致控制器开销的可能性增加。一种可能的解决方案是应用参与策略来控制监视器的数量,而另一种策略是提高探测数据的有效性以减少数据量。现有的网络故障诊断技术主要分为三类:被动故障探测,主动故障探测和基于网络日志的故障模式识别方法。被动故障探测方法通过在网络中部署监控代理来监控网络的实时性能,被动获取网络成员的状态信息。一种在网络中的特定链路上放置被动监测设备的方法,这些代理通过在给定时间内便利网络中的所有链路来监测网络的成员的当前状态,但是这种方法有在大规模网络中生成冗余监测代理的缺点。一种使用依赖图的被动故障诊断方法,但是这些算法一次只能检测出有限数量的故障节点,不适用于大规模网络的环境。贝叶斯置信网络(BBN)也被广泛应用于故障探测技术。BBN将网络结构模型化为有向无环图,然后通过分析端到端可观察症状来尝试找到失败的节点,故障推理在大规模网络中有较高的时间复杂度,使得故障管理系统不能及时有效的恢复网络的通信。主动故障诊断通常使用探测器来检测服务器的状况,这些选定的探针被传输以获得端到端的统计数据,如包丢失率,延迟和吞吐量等。然后控制器收集这些统计信息以获取进一步的信息对于主动探测推理,设计合适有效的探测策略非常重要。一种使用自适应探测的故障诊断系统架构。大多数基于探针的技术包含三个组件:探测站选择,探测器选择和故障推理。但是这些方法在大规模网络中受到流量开销的限制。一种减少网络流量开销的分阶段测试方法,在每个阶段只使用一小组探针检测到网络的一小部分区域。但如何找到合理布置探针台和探针台失效的问题还有待进一步探讨。一种探针台选择算法,以最小化探针台的数量并使探针台对抗故障具有鲁棒性。然而,如何放置探测站来监测故障站的问题仍然没有解决。随着大数据技术的发展,基于日志数据的故障诊断技术引起了广泛的关注。基于网络系统日志的技术通常建立在阈值算法的基础上,该算法首先基于网络管理人员的经验为网络不同的检测性能设置适当的阈值,然后通过将实际值与默认阈值进行比较来检测故障。这种技术很简单但存在两个明显的缺点:1)它的阈值是根据经验选择的;2)不分析低于阈值的数据,导致与网络状况有关的一些详细信息可能会被遗漏。用于主动故障诊断的新型分析体系,不仅考虑错误和下降等异常日志的关键字,还尝试发现突发性故障的模式。但是,基于数据的算法在数据预处理(如数据提取,数据清理和异常处理)方面有较高的时间复杂度。综上所述,现有技术存在的问题是:(1)被动故障探测方法在大规模网络中会产生冗余监测代理,导致网络中存在许多无用的探测包,当网络规模较大、业务繁忙时,冗余的探测包会影响网络的正常业务,甚至影响网络故障诊断结果,被动故障诊断不适用于大规模网络的环境。因此在大规模网络中,一方面可采用主动故障监测技术,有效降低网络中的冗余探测包。另一方面则需要提高探测包的有效性,降低进行故障诊断探测的探针的基数。(2)主动故障诊断在大规模网络中受到流量开销的限制,需要在网络中放置合理有效的探测基站,探测基站的位置和数量直接影响故障诊断结果的准确性,但是现有的研究并没有探测基站和数量的问题。而且在大规模网络中,设计覆盖网络的探针路径有很大的时间复杂度,当网络拓扑发生变化时还需要重新计算,不适用于动态网络结构。(3)在基于网络系统日志的技术中判定阈值是根据经验选择的;一方面由于该技术不分析低于阈值的数据,会导致与网络状况有关的一些详细信息可能会被遗漏。当网络状态发生不可预知的突变时,经验阈值无法准确判断网络的当前状态,导致网络故障管理系统无法获取网络中的故障信息。而分析所有故障数据方面则存在着时间复杂度较大,冗余信息较多的问题。解决上述技术问题的难度和意义:在大规模数据中心网络中,被动故障检测技术在实时性和有效性方面存在不足,而主动故障检测技术则存在如何选择探测基站和探测路径的问题。对于大规模复杂网络,解决发送探针一次遍历网络路径的问题是NP-hard问题,每次网络变化都需要重新计算,对于网络拓扑重构和优化等都存在很大的局限性,因此寻找一种新的合理有效的故障诊断模式是在工程上是十分有必要的。另一方面,在判断网络节点是否故障时,传统的依赖人工经验的方法也存在很大的局限性,因此建立合适的模型针对不同的网络结构选择合适的阈值也是十分具有研究意义的。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于拨测数据的数据中心网络故障节点诊断方法及系统。本专利技术是这样实现的,一种基于拨测数据的数据中心网络故障节点诊断方法,所述基于拨测数据的数据中心网络故障节点诊断方法依据现有的故障探测信息生成动态广度优先生成树作为节点间的探测路径;基于给定的先验概率p分析拨测数据来初步确定网络成员的故障概率;通过分析概率分配函数选择一个合理的阈值来识别故障节点,将可疑节点集分类为故障节点集和正常节点集。进一步,所述基于拨测数据的数据中心网络故障节点诊断方法给定一个动态生成树,任意一对相邻节点之间的测试状态si由两个指示变量s={rij,rji}组成,其中rij(rji)是节点i(j)测试节点j(i)的结果;rij=0意味着节点i将节点j标识为正常节点,rij=1则意味着节点j被节点i识别为故障状态;si组成的矩阵称为症状矩阵S。进一步,所述基于拨测数据的数据中心网络故障节点诊断方法具体包括:动态生成树,故障概率评估和故障推理;动态生成树搜索依据上次的探测结果动态地生成探测树;故障概率评估量化每个可疑节点的故障概率;故障推理将绝对故障节点放入故障组;根据故障概率表选择合适的阈值,将可疑节点划分为相对故障组和相对正常组。进一步,所述动态生成树搜索基于启发式广度优先搜索算法,其中N是网络中的一组节点,NF是正常节点集合,F是故障节点集合;步骤一,F←thelasttimedetectionresult;步骤二,turnto步骤三;else,turnto步骤四;步骤三,Findthebreadth-firstspanningtreebyclassicalalgorithm;步骤四,NF←N-F,useNFastheinitialsearchingnodes。进一步,所述故障概率评估每个节点的故障概率根据故障概率表获得,采用决策函数ψc决定一次探测中每个节点的最终故障概率;f(nj)=max{eij本文档来自技高网
...

【技术保护点】
1.一种基于拨测数据的数据中心网络故障节点诊断方法,其特征在于,所述基于拨测数据的数据中心网络故障节点诊断方法依据现有的故障探测信息生成动态广度优先生成树作为节点间的探测路径;基于给定的先验概率p分析拨测数据来初步确定网络成员的故障概率;通过分析概率分配函数选择一个合理的阈值来识别故障节点,将可疑节点集分类为故障节点集和正常节点集。

【技术特征摘要】
1.一种基于拨测数据的数据中心网络故障节点诊断方法,其特征在于,所述基于拨测数据的数据中心网络故障节点诊断方法依据现有的故障探测信息生成动态广度优先生成树作为节点间的探测路径;基于给定的先验概率p分析拨测数据来初步确定网络成员的故障概率;通过分析概率分配函数选择一个合理的阈值来识别故障节点,将可疑节点集分类为故障节点集和正常节点集。2.如权利要求1所述的基于拨测数据的数据中心网络故障节点诊断方法,其特征在于,所述基于拨测数据的数据中心网络故障节点诊断方法给定一个动态生成树,任意一对相邻节点之间的测试状态si由两个指示变量s={rij,rji}组成,其中rij(rji)是节点i(j)测试节点j(i)的结果;rij=0意味着节点i将节点j标识为正常节点,rij=1则意味着节点j被节点i识别为故障状态;si组成的矩阵称为症状矩阵S。3.如权利要求1所述的基于拨测数据的数据中心网络故障节点诊断方法,其特征在于,所述基于拨测数据的数据中心网络故障节点诊断方法具体包括:动态生成树,故障概率评估和故障推理;动态生成树搜索依据上次的探测结果动态地生成探测树;故障概率评估量化每个可疑节点的故障概率;故障推理将绝对故障节点放入故障组;根据故障概率表选择合适的阈值,将可疑节点划分为相对故障组和相对正常组。4.如权利要求3所述的基于拨测数据的数据中心网络故障节点诊断方法,其特征在于,所述动态生成树搜索基于启发式广度优先搜索算法,其中N是网络中的一组节点,NF是正常节点集合,F是故障...

【专利技术属性】
技术研发人员:齐小刚王冰纯刘立芳冯海林胡绍林
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1