一种分布式设备的故障检测方法和装置制造方法及图纸

技术编号:7810510 阅读:194 留言:0更新日期:2012-09-27 18:42
本发明专利技术提供了一种分布式设备的故障检测方法和装置:主控板中的辅助CPU将环回探测报文发送给每一个转发芯片;当在设定时间内辅助CPU未收到对应转发芯片返回的环回探测报文时,再将环回探测报文发送给每一个接口板LSW;当在设定时间内辅助CPU收到对应接口板LSW返回的环回探测报文时,判断为对应的转发芯片故障;当在设定时间内辅助CPU未收到对应接口板LSW返回的环回探测报文时,再向主控板LSW发送环回探测报文,当在设定时间内辅助CPU收到主控板LSW返回的环回探测报文时,判断为对应的接口板LSW故障,否则,判断为主控板LSW故障。应用本发明专利技术所述方法和装置,能够快速准确地检测出分布式设备内的故障装置,以减少故障装置对分布式设备的整体业务的影响。

【技术实现步骤摘要】

本专利技术涉及通信
,特别涉及一种分布式设备的故障检测方法和装置
技术介绍
目前中高端网络设备主要采用分布式架构,如图I所示。典型的分布式设备由转发平面、控制平面和检测平面等几个平面组成,其中,控制平面和转发平面是主要工作平面,分别负责整个分布式设备的内部管理通信和业务转发;检测平面主要负责实时对分布式设备内的各装置进行检测和修复。图I所示分布式设备的协议报文发送过程可参见图2,如图2所示,协议报文由主控板中央处理单元(CPU)发送给主控板以太网交换机(LSW),再由主控板LSW发送给接口板 LSff,进而由接口板LSW发送给接口板中的某一个转发芯片,最后,由该转发芯片将接收到的协议报文复制给其它转发芯片后,通过转发芯片上的各个端口转发出去。 通过上述分析可见,现有协议报文是由主控板CPU通过主控板的LSW和接口板的 LSW发送给接口板中某个转发芯片,以完成转发的。如果协议报文发送过程中所经过的内部通道(主控板LSW和接口板LSW的统称)或转发芯片故障,则整个协议报文的发送都会失败,从而影响整个分布式设备的组网和业务。因此,如何快速准确地检测出分布式设备内故障的装置(转发芯片或内部通道),已经成为现有分布式设备中亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种分布式设备的故障检测方法,能够快速准确地检测出故障的装置,以减少故障的装置对分布式设备的整体业务的影响。本专利技术还提供了一种分布式设备中的故障检测装置,能够快速准确地检测出分布式设备内故障的设备,以减少该故障的装置对分布式设备的整体业务的影响。为了达到上述目的,本专利技术提出的技术方案为一种分布式设备的故障检测方法,该方法包括主控板中的辅助中央处理单元CPU通过主控板以太网交换机LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片;当在设定时间内辅助CPU未收到对应转发芯片返回的环回探测报文时,辅助CPU 通过主控板LSW将环回探测报文发送给每一个接口板LSW ;当在设定时间内辅助CPU收到对应接口板LSW返回的环回探测报文时,判断为对应的转发芯片故障;当在设定时间内辅助CPU未收到对应接口板LSW返回的环回探测报文时,辅助CPU向主控板LSW发送环回探测报文,当在设定时间内辅助CPU收到主控板LSW返回的环回探测报文时,判断为对应的接口板LSW故障,否则,判断为主控板LSW故障。该方法还包括当在设定时间内辅助CPU收到对应转发芯片返回的环回探测报文时,判断为对应的转发芯片、接口板LSW和主控板LSW都正常。所述主控板中的辅助CPU通过主控板LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片包括辅助CPU将环回探测报文发送给主控板LSW,由主控板 LSff将环回探测报文发送给每一个接口板LSW,再由接口板LSW将环回探测报文发送给该接口板中每一个转发芯片;所述辅助CPU收到对应转发芯片返回的环回探测报文包括对应转发芯片将环回探测报文发送给该转发芯片对应的接口板LSW,由对应的接口板LSW将环回探测报文发送给主控板LSW,再由主控板LSW将环回探测报文发送给辅助CPU。所述CPU周期性地将环回探测报文发送给每一个转发芯片,则,所述主控板中的辅助CPU通过主控板LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片后,该方法还包括辅助CPU记录发送给每一个转发芯片的环回探测报文个数;所述辅助CPU收到对应转发芯片返回的环回探测报文后,该方法还包括辅助CPU 记录接收到的每一个转发芯片返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值,当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到对应转发芯片返回的环回检测报文;否则,判断为未收到对应转发芯片返回的环回检测报文。 所述辅助CPU通过主控板LSW将环回探测报文发送给每一个接口板LSW包括主控板中的辅助CPU将环回探测报文发送给主控板LSW,由主控板LSW将环回探测报文发送给每一个接口板LSW;所述辅助CPU收到对应接口板LSW返回的环回探测报文包括对应接口板LSW将环回探测报文发送给主控板LSW,由主控板LSW将环回探测报文发送给辅助CPU。所述辅助CPU周期性将环回探测报文发送给每一个接口板LSW,则,所述辅助CPU通过主控板LSW将环回探测报文发送给每一个接口板LSW后,该方法还包括辅助CPU记录发送给每一个接口板LSW的环回探测报文个数;所述辅助CPU收到对应接口板LSW返回的环回探测报文后,该方法还包括辅助 CPU记录接收到的每一个接口板LSW返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值,当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到对应接口板 LSW返回的环回检测报文;否则,判断为未收到对应接口板LSW返回的环回检测报文。所述辅助CPU周期性地向主控板LSW发送环回探测报文,则,所述辅助CPU将环回探测报文发送给主控板LSW后,该方法还包括辅助CPU记录发送给主控板LSW的环回探测报文个数;所述辅助CPU收到主控板LSW返回的环回探测报文后,该方法还包括辅助CPU记录接收到的主控板LSW返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值,当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到主控板LSW 返回的环回检测报文;否则,判断为未收到主控板LSW返回的环回检测报文。所述CPU发送环回探测报文是以CPU中断为周期的。当所述转发芯片故障时,该方法还包括辅助CPU将所述转发芯片故障的消息通知给其他每一个CPU,以使得后续交互的报文通过正常的转发芯片进行发送;当所述接口板LSW故障时,该方法还包括辅助CPU将所述接口板LSW故障的消息通知给其他每一个CPU,以使得后续交互的报文通过正常的接口板LSW进行发送。当所述转发芯片故障时,该方法还包括辅助CPU将故障的转发芯片复位使其恢复正常工作;当所述接口板LSW故障时,该方法还包括辅助CPU重新启动该故障接口板使该接口板LSW恢复正常工作;当所述主控板LSW故障时,该方法还包括辅助CPU重新启动该故障主控板,并在所有接口板中重新选取主控板。一种分布式设备中的故障检测装置,该故障检测装置包括第一发送单元、第二发送单元、第一判断单元、第三发送单元、第二判断单元和第三判断单元,其中,所述第一发送单元,用于通过主控板以太网交换机LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片;第二发送单元,用于当第一发送单元发送环回探测报文后,在设定时间内未收到对应转发芯片返回的环回探测报文时,通过主控板LSW将环回探测报文发送给每一个接口板 LSff ;所述第一判断单元,用于当第二发送单元发送环回探测报文后,在设定时间内收到对应接口板LSW返回的环回探测报文时,判断为对应的转发芯片故障;所述第三发送单元,用于当第二发送单元发送环回探测报文后,在设定时间内未收到对应接口板LSW返回的环回探测报文时,向主控板LSW发送环回探测报文;所述第二判断单元,用于当第三发送单元发送环回探测报文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分布式设备的故障检测方法,其特征在于,该方法包括主控板中的辅助中央处理单元CPU通过主控板以太网交换机LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片;当在设定时间内辅助CPU未收到对应转发芯片返回的环回探测报文时,辅助CPU通过主控板LSW将环回探测报文发送给每一个接口板LSW ;当在设定时间内辅助CPU收到对应接口板LSW返回的环回探测报文时,判断为对应的转发芯片故障;当在设定时间内辅助CPU未收到对应接口板LSW返回的环回探测报文时,辅助CPU向主控板LSW发送环回探测报文,当在设定时间内辅助CPU收到主控板LSW返回的环回探测报文时,判断为对应的接口板LSW故障,否则,判断为主控板LSW故障。2.根据权利要求I所述的方法,其特征在于,该方法还包括当在设定时间内辅助CPU收到对应转发芯片返回的环回探测报文时,判断为对应的转发芯片、接口板LSW和主控板LSW都正常。3.根据权利要求2所述的方法,其特征在于,所述主控板中的辅助CPU通过主控板LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片包括辅助CPU将环回探测报文发送给主控板LSW,由主控板LSW 将环回探测报文发送给每一个接口板LSW,再由接口板LSW将环回探测报文发送给该接口板中每一个转发芯片;所述辅助CPU收到对应转发芯片返回的环回探测报文包括对应转发芯片将环回探测报文发送给该转发芯片对应的接口板LSW,由对应的接口板LSW将环回探测报文发送给主控板LSW,再由主控板LSW将环回探测报文发送给辅助CPU。4.根据权利要求3所述的方法,其特征在于,所述CPU周期性地将环回探测报文发送给每一个转发芯片,则,所述主控板中的辅助CPU通过主控板LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片后,该方法还包括辅助CPU记录发送给每一个转发芯片的环回探测报文个数;所述辅助CPU收到对应转发芯片返回的环回探测报文后,该方法还包括辅助CPU记录接收到的每一个转发芯片返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值, 当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到对应转发芯片返回的环回检测报文;否则,判断为未收到对应转发芯片返回的环回检测报文。5.根据权利要求I所述的方法,其特征在于,所述辅助CPU通过主控板LSW将环回探测报文发送给每一个接口板LSW包括主控板中的辅助CPU将环回探测报文发送给主控板LSW,由主控板LSW将环回探测报文发送给每一个接口板LSW;所述辅助CPU收到对应接口板LSW返回的环回探测报文包括对应接口板LSW将环回探测报文发送给主控板LSW,由主控板LSW将环回探测报文发送给辅助CPU。6.根据权利要求5所述的方法,其特征在于,所述辅助CPU周期性将环回探测报文发送给每一个接口板LSWH所述辅助CPU通过主控板LSW将环回探测报文发送给每一个接口板LSW后,该方法还包括辅助CPU记录发送给每一个接口板LSW的环回探测报文个数;所述辅助CPU收到对应接口板LSW返回的环回探测报文后,该方法还包括辅助CPU记录接收到的每一个接口板LSW返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值, 当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到对应接口板LSW返回的环回检测报文;否则,判断为未收到对应接口板LSW返回的环回检测报文。7.根据权利要求I所述的方法,其特征在于,所述辅助CPU周期性地向主控板LSW发送环回探测报文,则,所述辅助CPU将环回探测报文发送给主控板LSW后,该方法还包括辅助CPU记录发送给主控板LSW的环回探测报文个数;所述辅助CPU收到主控板LSW返回的环回探测报文后,该方法还包括辅助CPU记录接收到的主控板LSW返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值, 当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到主控板LSW返回的环回检测报文;否则,判断为未收到主控板LSW返回的环回检测报文。8.根据权利要求4、6、7中任一项所述的方法,其特征在于,所述CPU发送环回探测报文是以CPU中断为周期的。9.根据权利要求1-7中任一项所述的方法,其特征在于,当所述转发芯片故障时,该方法还包括辅助CPU将所述转发芯片故障的消息通知给其他每一个CPU,以使得后续交互的报文通过正常的转发芯片进行发送;当所述接口板LSW故障时,该方法还包括辅助CPU将所述接口板LSW故障的消息通知给其他每一个CPU,以使得后续交互的报文通过正常的接口板LSW进行发送。10.根据权利要求1-7中任一项所述的方法,其特征在于,当所述转发芯片故障时,该方法还包括辅助CPU将故障的转发芯片复位使其恢复正常工作;当所述接口板LSW故障时,该方法还包括辅助CPU重新启动该故障接口板使该接口板 LSff恢复正常工作;当所述主控板LSW故障时,...

【专利技术属性】
技术研发人员:宋益波王锋
申请(专利权)人:杭州华三通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1