基于流量统计的网络设备及链路实时故障检测方法和系统技术方案

技术编号:30200292 阅读:21 留言:0更新日期:2021-09-29 08:54
提供了基于流量统计的网络设备或网络链路实时故障检测系统和方法。在设备故障检测方面,根据基线数据集构建了一种网络流量的统计经验模型,所述基线数据集中的每一基线数据对应于每一区间累计的网络流量。在链路故障检测方面,根据基线数据集构建了一种链接流量分布的统计经验模型,所述基线数据集中的每一基线数据对应于每一区间的链接流量分布。在两种情况下,在初始构建后,使用合格的、选择的新数据动态更新所述模型。根据更新后的模型评估每一新基线数据,以判断所述新基线数据是否为异常值。连续的异常值可触发故障告警。连续的异常值可触发故障告警。连续的异常值可触发故障告警。

【技术实现步骤摘要】
【国外来华专利技术】distribution,链接流量分布)发生了改变。在本公开的另一方面,实施例提供一种链路异常检测机制,周期性地将所述链路中的实时链接流量分布与动态更新的统计经验模型进行比较。在一些实施例中,所述模型包括预期链接流量分布。
[0008]预期链接流量分布可通过对复数个区间内如连续区间采集到的链接流量分布数据的基线数据集取平均值获得。例如,所述基线数据集的每一基线数据对应于一组流量占比,该组流量占比为一个区间内所述链接各自分担的流量占比。所述模型初始构建之后,对于每一区间,确定链接流量分布的一个新基线数据是否合格且被选择用于更新所述基线数据集。如果是,所述新基线数据替换所述基线数据集的最早的基线数据,以更新所述预期链接流量分布。无论所述新基线数据是否用于更新所述模型,根据所述预期分布评估所述新基线数据,以判断该新基线数据是否为异常值。响应于检测到预先设定数量的连续的异常值,生成告警,所述告警可进一步触发自动或手动诊断、故障排查以及修复措施。
[0009]根据本公开实施例,由于网络流量或链接流量分布被持续监控及使用简单统计处理实时评估,不管网络架构的复杂性,设备或链路的网络异常可在快速响应中被方便地捕获。由于被监控的统计数据可简单地从流量数据中获得,故障检测可通过使用设备或链路的现成的数据而方便地实现,并且,经验模型不要求了解细节特性及业务操作的综合知识。
[0010]另外,因为随着采集新数据而频繁更新,统计模型能反映最新的数据概率分布,这方便地增强了故障检测的效果及准确性。进一步,由于设备或链路的模型能使用被监控设备或被监控链路本身的真实经验数据构建及更新,所述模型是根据所述设备或链路的特性及业务操作制定的。这进一步有助于故障检测的精确度。
[0011]上述是概要,这不可避免地会简化、概括化以及遗漏细节;因此,所属领域的技术人员可以理解所述概要仅仅是示例性的,不以任何方式作为限制。其他方面,本公开的专利技术特性及有益效果,如权利要求中严格定义的,将在下述非限制性的具体实施方式中明确体现。
附图说明
[0012]结合附图对下述具体实施方式阅读,可以更好的理解本公开实施例,附图中相似字符表示相似元素。
[0013]图1示出了根据本公开其一实施例的示例性的具有故障检测设备的通信网络,所述故障检测设备能基于流量数据的统计值实时检测设备故障和链路故障。
[0014]图2是根据本公开其一实施例的基于流量统计数据的实时设备故障检测的示例性计算机实现过程的流程图。
[0015]图3是根据本公开其一实施例的用于设备的统计模型构建及相应的故障检测的示例性计算机实现过程的流程图。
[0016]图4示出了其一链接故障后示例性链路的链接流量分布的变化。
[0017]图5是根据本公开其一实施例的基于流量统计的实时链路故障检测的示例性计算机实现过程的流程图。
[0018]图6是根据本公开其一实施例的用于链路的统计模型构建及相应的故障检测的示例性计算机实现过程的流程图。
[0019]图7是根据本公开其一实施例的基于流量统计的实时设备故障检测及链接检测的
示例性计算系统的框图。
具体实施方式
[0020]详细参考本公开优选实施例,这些例子在附图中进行了阐明。本专利技术将结合所述优选实施例进行描述,可以理解的是,它们并不意图将本专利技术限定于这些实施例。相反,本专利技术意图涵盖如所附权利要求定义的专利技术范围及精神内包括的替换、修改以及等同方案。进一步,下述本专利技术实施例的详细描述中,为了提供对本专利技术的透彻理解,给出了多个特定细节。然而,可以被本领域普通技术人员理解的是,没有这些特定细节本专利技术可被实践。在其他例子中,公知的方法、过程、部件以及链路未被详细描述,以免不必要地模糊本专利技术实施例的方面。尽管为清晰起见一种方法能被描述为一系列的步骤,步骤编号并不必然意味着步骤的顺序。应该被理解的是,一些步骤可以被跳过、并行执行或不要求保持严格顺序而执行。表现本专利技术实施例的附图为半图式且并非按比例绘制,尤其是一些维度是为了描述的清晰度,并在图中进行了夸张显示。同样地,尽管为了描述的简便附图中的视图一般显示相同方向,附图中的这个描述极大程度上是任意的。一般地,本专利技术可在任意方向被执行。符号和术语
[0021]然而应该铭记的是,所有这些以及相似术语与合适的物理量关联,仅仅是用于这些量的方便标签。除非另外从下述讨论中特别明显指明,否则,应该理解,贯穿本专利技术中使用术语如“采集(collecting)”、“构建(constructing)”、“处理(processing)”或“计算(calculating)”或“执行(executing)”或“存储(storing)”或类似用语意指:计算机系统或类似电子计算设备的动作及处理过程,计算机系统或类似电子计算设备对计算机系统的寄存器及存储器内以及其他计算机可读媒介内表示物理(电子)量的数据,操作并转换为计算机系统的存储器或寄存器内或其他如信息存储设备、传输设备或显示设备内的其他类似表示物理量的数据。当一个部件出现在几个实施例中,使用相同引用数字表示该部件与初始实施例中所示的部件相同。基于流量统计的网络设备及链路实时故障检测
[0022]本公开实施例提供基于实时流量数据及其统计值检测网络设备或链路故障的机制。对于网络设备而言,经验统计模型能通过使用复数个区间内采集到的基线数据集构建,所述模型代表每一区间所述设备的网络流量的概率分布。所述模型可包括一组统计指标或相关函数,例如,所述指标为平均值和标准差。初始模型构建之后,根据所述模型评估每一区间的网络流量的一个新基线数据,以判断该区间的所述基线数据是否为异常值。异常值连续出现能触发故障告警。如果合格,所述新基线数据能被随机选择用于更新所述基线模型。在该实施方式中,所述模型用最新的正常数据更新,因此能准确地反映所述设备的当前特性及业务操作。
[0023]对于链路而言,经验统计模型通过使用复数个区间内采集到的基线数据集构建,所述模型代表所述链路内每一区间的链接流量分布的概率分布。所述模型可对应于预期链接流量分布。初始模型构建之后,对于每一区间,根据所述模型对包括一组链接流量或链接流量分布的一个新基线数据进行评估,以判断所述区间的基线数据是否为异常值。异常值连续出现可触发故障告警。如果合格,所述基线数据能被随机选择用于更新所述基线模型。在该实施方式中,所述模型用最新的正常数据更新,因此能准确地反映所述设备的当前特
性及业务操作。
[0024]图1示出了根据本公开实施例的具有能基于流量数据统计实时检测设备故障及链路故障的故障检测设备121和122的示例性的通信网络100。在一种简化形式中,所述网络100包括复数个相互连接并按多层排列的网络交换设备(如路由器),每一交换设备被配置为转发网络流量。所述交换设备属于被因特网服务提供商110控制的网络架构。终端(如131)被联结至所述交换设备,可以为服务端设备或客户端设备。可以理解的是,本公开不被限定于任何特定类型的网络拓扑结构或交换设备。
[0025]每一交换设备科被配置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于网络交换设备的实时故障检测方法,所述方法包括:为复数个区间的每一区间确定一个网络流量基线数据;根据所述网络流量基线数据,为所述交换设备动态更新与每一区间网络流量相关联的网络流量统计数据集合;根据所述网络流量统计数据集合和预先设定的阈值,判断所述网络流量基线数据为异常值;并且,响应于预先设定数量的网络流量基线数据被确定为异常值,生成故障告警。2.如权利要求1所述的方法,其特征在于,入口流量对应于经过所述交换设备的全部入端口的入口流量之和;出口流量对应于经过所述交换设备的全部出端口的出口流量之和。3.如权利要求1所述的方法,其特征在于,所述网络流量统计数据集合包括:基线数据集上的网络流量数据的平均值和标准差;所述根据所述网络流量统计数据集合和预先设定的阈值,判断所述网络流量基线数据为异常值,包括:根据所述网络流量基线数据和所述平均值之间的距离,以及进一步根据所述距离相对于所述标准差之间的比率,确定所述网络流量基线数据为异常值。4.如权利要求1所述的方法,其特征在于,还包括:确定基线数据集的网络流量统计数据集合;其中,所述基线数据集包括第一复数个连续区间的网络流量数据。5.如权利要求4所述的方法,其特征在于,所述根据所述网络流量基线数据,为所述交换设备动态更新与每一区间网络流量相关联的网络流量统计数据集合,包括:通过将所述区间的网络流量基线数据增加至所述基线数据集,并从所述基线数据集删除最早的网络流量基线数据,更新所述基线数据集;并且,根据更新后的基线数据集,重新计算所述网络流量统计数据集合。6.如权利要求5所述的方法,其特征在于,所述更新所述基线数据集,包括:根据下述条件确定所述网络流量基线数据是用于所述更新处理的合格基线数据:前一网络流量基线数据未被判断为异常值;并且,入口流量和出口流量大于预先设定的阈值。7.一种用于网络链路群的实时故障检测方法,所述方法包括:采集复数个区间的每一区间内所述网络链路群的实时流量;其中,所述网络链路群包括:第一端、第二端以及复数个功能等同的链接;其中,所述区间的实时流量包括:由所述第一端至所述第二端的复数个链接的各自的链接流量;以及,由所述第一端至所述第二端的网络链路群的链路流量;根据所述区间的实时流量,为所述网络链路群动态更新预期链接流量分布;根据所述预期链接流量分布,评估所述区间的实时链接流量;根据偏差判断所述区间的实时流量为异常值;并且,响应于预先设定数量的区间的实时流量被判断为异常值,生成故障告警。8.如权利要求7所述的方法,还包括:确定所述复数个链接的实时链接流量分布,所述实时链接流量分布对应于所述区间的各个链接流量相对于所述链路流量的比例;
其中,所述根据所述预期链接流量分布,评估所述区间的实时链接流量,包括:根据所述预期链接流量分布,评估所述实时链接流量分布。9.如权利要求7所述的方法,其特征在于,所述根据所述预期链接流量分布,评估所述区间的实时链接流量,包括:评估每一链接的流量占比与所述链接的预期流量占比之间的距离。10.如权利要求7所述的方法,其特征在于,还包括:...

【专利技术属性】
技术研发人员:赵石林跃华许辉佘敦成王淼刘辉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1