网络故障的检测方法及装置制造方法及图纸

技术编号:30018753 阅读:72 留言:0更新日期:2021-09-11 06:33
本公开涉及一种网络故障的检测方法、装置、电子设备及计算机可读介质。该方法包括:按照预定时间周期定时获取设备的各个物理端口对应的内存缓存的剩余数量;在剩余数量小于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第一规则更新第一内存数组和第二内存数组;在剩余数量大于等于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第二规则更新第一内存数组和第二内存数组;根据所述第一内存数组和所述第二内存数组记录的数据确定当前的网络的故障原因。本公开涉及的网络故障的检测方法、装置、电子设备及计算机可读介质,能够对网络设备出现不可自动恢复的内存缓存泄露的故障原因进行识别,并自动进行网络故障恢复。动进行网络故障恢复。动进行网络故障恢复。

【技术实现步骤摘要】
网络故障的检测方法及装置


[0001]本公开涉及计算机信息处理领域,具体而言,涉及一种网络故障的检测方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]通常网络设备为了提高报文并发处理效率,系统在注册物理接口时会给每个接口预分配一块连续的内存缓存,用来缓存从硬件接收到的skb,这个内存缓存通常称之为硬Buff。每个接口的硬Buff能够缓存skb个数存在有固定上限,当硬buff中缓存的skb数量达到上限时就不能继续缓存skb报文。在正常状态下,网络设备的内核从硬件接收到skb后,会先将skb保存在硬buff缓存中,然后内核对skb进行审计、镜像、NAT、转发等业务处理,根据处理结果释放该skb对应的内存缓存空间。可能根据查找到的出接口将skb转发出去,还可能在skb为非法报文,直接将其丢弃,不管怎样,处理之后会重新释放skb占用的缓存空间,硬buff就可以继续缓存其他从硬件接收到的skb。
[0003]当系统某个业务流程出现软件bug时,可能会导致处理完的skb所占用的空间没有得到释放,在这种情况时,会导致硬buff内存持续减少,当剩余硬buff数量减少到0后,会导致硬件处无法继续缓存报文,此时会导致网络中断。通常软件bug导致的硬buff泄露系统无法自动恢复,只能通过重启系统恢复硬buff。
[0004]当遇到网络报文突增的情况,内核从硬件中接收到skb速率超过设备处理skb速率(即超过网络设备的性能时),此时如果硬buff剩余数量减少到0也会导致硬件无法继续缓存报文,出现网络中断。这种情况的硬buff泄露导致网络中断,会随着网络报文中的skb数量下降而恢复。但是事后通常需要比较有经验的网络管理员专门针对是否是网络突增导致的硬buff数量不足的问题进行排查,然后进行调整。
[0005]上述的情况给系统的使用者和维护人员带来了极大的不方便,因此,需要一种新的网络故障的检测方法、装置、电子设备及计算机可读介质。
[0006]在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0007]有鉴于此,本公开提供一种网络故障的检测方法、装置、电子设备及计算机可读介质,能够对网络设备出现不可自动恢复的内存缓存泄露的故障原因进行识别,并自动进行网络故障恢复。
[0008]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0009]根据本公开的一方面,提出一种网络故障的检测方法,该方法包括:按照预定时间周期定时获取设备的各个物理端口对应的内存缓存的剩余数量;在剩余数量小于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第一规则更新第一内存数组和第二
内存数组;在剩余数量大于等于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第二规则更新第一内存数组和第二内存数组;根据所述第一内存数组和所述第二内存数组记录的数据确定当前的网络的故障原因。
[0010]在本公开的一种示例性实施例中,还包括:根据网络设备当前的整机流量确定所述预定时间周期。
[0011]在本公开的一种示例性实施例中,根据网络设备当前的整机流量确定所述预定时间周期,包括:设定初始时间周期;按照初始时间周期获取所述网络设备当前的整机流量;在所述整机流量大于等于流量阈值时,延长所述初始时间周期以生成所述预定时间周期;在所述整机流量大于流量阈值时,缩短所述初始时间周期以生成所述预定时间周期。
[0012]在本公开的一种示例性实施例中,还包括:基于所述网络设备的物理端口的总数生成所述第一内存数组和所述第二内存数组;其中,所述第一内存数组用于记录每个物理端口的内存缓存的剩余数量小于告警阈值的次数;所述第二内存数组用于记录每个物理端口的内存缓存的剩余数量小于告警阈值后又恢复正常的次数。
[0013]在本公开的一种示例性实施例中,基于所述网络设备的物理端口的总数生成所述第一内存数组和所述第二内存数组,包括:基于所述网络设备的物理端口的总数确定所述第一内存数组和所述第二内存数组的容量;申请连续的两组容量以生成所述第一内存数组和所述第二内存数组。
[0014]在本公开的一种示例性实施例中,在剩余数量小于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第一规则更新第一内存数组和第二内存数组,包括:在物理端口的内存缓存的剩余数量小于告警阈值时,将所述物理端口对应的第一数组中的计数加1,同时将所述物理端口对应的第二数组中的计数清零。
[0015]在本公开的一种示例性实施例中,基于各个物理端口对应的内存缓存的剩余数量按照第二规则更新第一内存数组和第二内存数组,包括:在物理端口的内存缓存的剩余数量大于等于告警阈值时,将所述物理端口对应的第一数组中的计数加清零,同时将所述物理端口对应的第二数组中的计数加1。
[0016]在本公开的一种示例性实施例中,根据所述第一内存数组和所述第二内存数组记录的数据确定当前的网络的故障原因,包括:在所述第一内存数组中的物理端口对应的数量大于等于计数阈值时,确定当前处于内存缓存不足状态,生成告警信息。
[0017]在本公开的一种示例性实施例中,根据所述第一内存数组和所述第二内存数组记录的数据确定当前的网络的故障原因,还包括:在生成告警信息之后,获取所述物理端口中所有内存缓存的生成时间;在所述生成时间和当前系统时间大于时间阈值时,确定所述物理端口存在内存缓存泄漏;对所述网络设备的进行重启。
[0018]在本公开的一种示例性实施例中,包括:在所述第二内存数组中的物理端口对应的数量小于计数阈值时,确定内存缓存充足,生成恢复信息。
[0019]根据本公开的一方面,提出一种网络故障的检测装置,可应用于网络设备,该装置包括:获取模块,用于按照预定时间周期定时获取设备的各个物理端口对应的内存缓存的剩余数量;第一更新模块,用于在剩余数量小于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第一规则更新第一内存数组和第二内存数组;第二更新模块,用于在剩余数量大于等于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第二规
则更新第一内存数组和第二内存数组;故障模块,用于根据所述第一内存数组和所述第二内存数组记录的数据确定当前的网络的故障原因。
[0020]在本公开的一种示例性实施例中,还包括:定时模块,用于根据网络设备当前的整机流量确定所述预定时间周期。
[0021]根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
[0022]根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
[0023]根据本公开的网络故障的检测方法、装置、电子设备及计算机可读介质,按照预定时间周期定时获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络故障的检测方法,可应用于网络设备,其特征在于,包括:按照预定时间周期定时获取设备的各个物理端口对应的内存缓存的剩余数量;在剩余数量小于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第一规则更新第一内存数组和第二内存数组;在剩余数量大于等于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第二规则更新第一内存数组和第二内存数组;根据所述第一内存数组和所述第二内存数组记录的数据确定当前的网络的故障原因。2.如权利要求1所述的方法,其特征在于,还包括:根据网络设备当前的整机流量确定所述预定时间周期。3.如权利要求2所述的方法,其特征在于,根据网络设备当前的整机流量确定所述预定时间周期,包括:设定初始时间周期;按照初始时间周期获取所述网络设备当前的整机流量;在所述整机流量大于等于流量阈值时,延长所述初始时间周期以生成所述预定时间周期;在所述整机流量大于流量阈值时,缩短所述初始时间周期以生成所述预定时间周期。4.如权利要求1所述的方法,其特征在于,还包括:基于所述网络设备的物理端口的总数生成所述第一内存数组和所述第二内存数组;其中,所述第一内存数组用于记录每个物理端口的内存缓存的剩余数量小于告警阈值的次数;所述第二内存数组用于记录每个物理端口的内存缓存的剩余数量小于告警阈值后又恢复正常的次数。5.如权利要求4所述的方法,其特征在于,基于所述网络设备的物理端口的总数生成所述第一内存数组和所述第二内存数组,包括:基于所述网络设备的物理端口的总数确定所述第一内存数组和所述第二内存数组的容量;申请连续的两组容量以生成所述第一内存数组和所述第二内存数组。6.如权利要求1所述的方法,其特征在于,在剩余数量小于告警阈值时,基于各个物理端口对应的内存缓存的剩余数量按照第一规则更新第一内存数组和第二内存数组,包括:在物理端口的内存缓存的剩余数量小于告警阈值时,将所述物理端口对应的第一数组中的计数加1,同时将所述物理端口对应...

【专利技术属性】
技术研发人员:汤永翔王蓬
申请(专利权)人:杭州迪普科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1