【技术实现步骤摘要】
本专利技术涉及通信
,特别涉及一种分布式设备的故障检测方法和装置。
技术介绍
目前中高端网络设备主要采用分布式架构,如图I所示。典型的分布式设备由转发平面、控制平面和检测平面等几个平面组成,其中,控制平面和转发平面是主要工作平面,分别负责整个分布式设备的内部管理通信和业务转发;检测平面主要负责实时对分布式设备内的各装置进行检测和修复。图I所示分布式设备的协议报文发送过程可参见图2,如图2所示,协议报文由主控板中央处理单元(CPU)发送给主控板以太网交换机(LSW),再由主控板LSW发送给接口板 LSff,进而由接口板LSW发送给接口板中的某一个转发芯片,最后,由该转发芯片将接收到的协议报文复制给其它转发芯片后,通过转发芯片上的各个端口转发出去。 通过上述分析可见,现有协议报文是由主控板CPU通过主控板的LSW和接口板的 LSW发送给接口板中某个转发芯片,以完成转发的。如果协议报文发送过程中所经过的内部通道(主控板LSW和接口板LSW的统称)或转发芯片故障,则整个协议报文的发送都会失败,从而影响整个分布式设备的组网和业务。因此,如何快速准确地检测出分布式设备内故障的装置(转发芯片或内部通道),已经成为现有分布式设备中亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种分布式设备的故障检测方法,能够快速准确地检测出故障的装置,以减少故障的装置对分布式设备的整体业务的影响。本专利技术还提供了一种分布式设备中的故障检测装置,能够快速准确地检测出分布式设备内故障的设备,以减少该故障的装置对分布式设备的整体业务的影响。为了达到上述目的,本专利技术提出的技 ...
【技术保护点】
【技术特征摘要】
1.一种分布式设备的故障检测方法,其特征在于,该方法包括主控板中的辅助中央处理单元CPU通过主控板以太网交换机LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片;当在设定时间内辅助CPU未收到对应转发芯片返回的环回探测报文时,辅助CPU通过主控板LSW将环回探测报文发送给每一个接口板LSW ;当在设定时间内辅助CPU收到对应接口板LSW返回的环回探测报文时,判断为对应的转发芯片故障;当在设定时间内辅助CPU未收到对应接口板LSW返回的环回探测报文时,辅助CPU向主控板LSW发送环回探测报文,当在设定时间内辅助CPU收到主控板LSW返回的环回探测报文时,判断为对应的接口板LSW故障,否则,判断为主控板LSW故障。2.根据权利要求I所述的方法,其特征在于,该方法还包括当在设定时间内辅助CPU收到对应转发芯片返回的环回探测报文时,判断为对应的转发芯片、接口板LSW和主控板LSW都正常。3.根据权利要求2所述的方法,其特征在于,所述主控板中的辅助CPU通过主控板LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片包括辅助CPU将环回探测报文发送给主控板LSW,由主控板LSW 将环回探测报文发送给每一个接口板LSW,再由接口板LSW将环回探测报文发送给该接口板中每一个转发芯片;所述辅助CPU收到对应转发芯片返回的环回探测报文包括对应转发芯片将环回探测报文发送给该转发芯片对应的接口板LSW,由对应的接口板LSW将环回探测报文发送给主控板LSW,再由主控板LSW将环回探测报文发送给辅助CPU。4.根据权利要求3所述的方法,其特征在于,所述CPU周期性地将环回探测报文发送给每一个转发芯片,则,所述主控板中的辅助CPU通过主控板LSW、接口板LSW将环回探测报文发送给每一个接口板中的每一个转发芯片后,该方法还包括辅助CPU记录发送给每一个转发芯片的环回探测报文个数;所述辅助CPU收到对应转发芯片返回的环回探测报文后,该方法还包括辅助CPU记录接收到的每一个转发芯片返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值, 当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到对应转发芯片返回的环回检测报文;否则,判断为未收到对应转发芯片返回的环回检测报文。5.根据权利要求I所述的方法,其特征在于,所述辅助CPU通过主控板LSW将环回探测报文发送给每一个接口板LSW包括主控板中的辅助CPU将环回探测报文发送给主控板LSW,由主控板LSW将环回探测报文发送给每一个接口板LSW;所述辅助CPU收到对应接口板LSW返回的环回探测报文包括对应接口板LSW将环回探测报文发送给主控板LSW,由主控板LSW将环回探测报文发送给辅助CPU。6.根据权利要求5所述的方法,其特征在于,所述辅助CPU周期性将环回探测报文发送给每一个接口板LSWH所述辅助CPU通过主控板LSW将环回探测报文发送给每一个接口板LSW后,该方法还包括辅助CPU记录发送给每一个接口板LSW的环回探测报文个数;所述辅助CPU收到对应接口板LSW返回的环回探测报文后,该方法还包括辅助CPU记录接收到的每一个接口板LSW返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值, 当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到对应接口板LSW返回的环回检测报文;否则,判断为未收到对应接口板LSW返回的环回检测报文。7.根据权利要求I所述的方法,其特征在于,所述辅助CPU周期性地向主控板LSW发送环回探测报文,则,所述辅助CPU将环回探测报文发送给主控板LSW后,该方法还包括辅助CPU记录发送给主控板LSW的环回探测报文个数;所述辅助CPU收到主控板LSW返回的环回探测报文后,该方法还包括辅助CPU记录接收到的主控板LSW返回的环回探测报文个数;辅助CPU计算所述发送的环回探测报文个数与所述接收的环回探测报文个数的差值, 当在设定时间内,计算出的所述差值小于一阈值时,判断为辅助CPU收到主控板LSW返回的环回检测报文;否则,判断为未收到主控板LSW返回的环回检测报文。8.根据权利要求4、6、7中任一项所述的方法,其特征在于,所述CPU发送环回探测报文是以CPU中断为周期的。9.根据权利要求1-7中任一项所述的方法,其特征在于,当所述转发芯片故障时,该方法还包括辅助CPU将所述转发芯片故障的消息通知给其他每一个CPU,以使得后续交互的报文通过正常的转发芯片进行发送;当所述接口板LSW故障时,该方法还包括辅助CPU将所述接口板LSW故障的消息通知给其他每一个CPU,以使得后续交互的报文通过正常的接口板LSW进行发送。10.根据权利要求1-7中任一项所述的方法,其特征在于,当所述转发芯片故障时,该方法还包括辅助CPU将故障的转发芯片复位使其恢复正常工作;当所述接口板LSW故障时,该方法还包括辅助CPU重新启动该故障接口板使该接口板 LSff恢复正常工作;当所述主控板LSW故障时,...
【专利技术属性】
技术研发人员:宋益波,王锋,
申请(专利权)人:杭州华三通信技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。