一种多点故障处理方法及装置制造方法及图纸

技术编号:15518262 阅读:237 留言:0更新日期:2017-06-04 08:33
本发明专利技术涉及计算机技术,特别涉及一种多点故障处理方法及装置。用于防止单板的反复切换,乒乓处理。该方法为:第一交换板在进行多点故障处理时,需要对端口进行预先分类,并按照端口类分别进行故障检测,以及根据正常状态的端口类对应的状态权值,计算本地的第一状态权值总和,再将第一状态权值总和与第二交换板的第二状态权值总和进行比较,选取取值大的一方对应的交换板做为主交换板;由于状态权值可以反映交换板的整个工作状态,因此,多点故障产生时,可以迅速选取当前工作状态更好的交换板作为主交换板,从而可以防止单板乒乓切换或系统死锁,令系统可用性达到最大化。

【技术实现步骤摘要】
一种多点故障处理方法及装置
本专利技术涉及计算机技术,特别涉及一种多点故障处理方法及装置。
技术介绍
在基于高级电信计算架构(AdvancedTelecommunicationsComputingArchitecture,ATCA)的插箱系统中,通常会设置多个机架,每个机架中布置有多个机框(具体如图1所示),一个机框内的主板上通常设置有多个槽位(如,14槽,具体如图2所示),每个槽位内插有单板,机框内部会针对各个槽位定义逻辑功能,如,进行全局管理的全局单板,进行数据交换的交换板等等。机框间会通过交换板进行互连,保证机框间的通信和数据传输。标准的ATCA架构虽然定义了机框的互连规范,但是对于如何提供系统的可用性,并没有特定的方法句号。为了保证系统的高可用性,高可靠性,通常会针对每种类型的单板设置冗余备份机制,以防止单板故障引起的单点故障导致的系统无法正常运行。例如,参阅图3所示,通常情况下,会在一个机框内的7槽和8槽中设置有两个交换板,互为主备关系,以防止单板故障;进一步地,两个交换板会分别和其他槽位单板的控制面主备端口连接,以及分别和其他槽位单板的业务面主备端口连接,用于实现机框间的通信和数据传输。同样在多机框系统的机框间互连互通时,用于互连互通的端口也设置有备用端口进行连接来提供冗余备份机制。通常的系统设计,针对系统中的单点故障,都会设计故障的恢复处理方案,即进行主备快速切换;但是针对多个故障点同时或先后出现时,由于异常处理情况较多,如果按照多个单点故障独立进行处理,可能存在多个单点故障处理结果冲突,导致设备反复切换,从而引发乒乓效应或系统死锁的情况。尤其当两个或多个故障条件同时产生时,如果均都按照单点故障的处理方案和流程进行处理,最后的结果往往导致系统不可恢复。例如,7槽交换板检测到一起单点故障后,切换至8槽交换板,而8槽交换板也检测到一起单点故障,又切换回7槽交换板,7槽交换板再次检测到一起单点故障后,又切换至8槽交换板,显示,这样很容易导引设备的反复切换,从而导致乒乓效应。现有技术下,由于多个故障点产生的位置和时间等组合条件过于复杂,针对多点故障很难设计出完善的自动处理方案;只能依赖设备的维护管理人员根据多个故障点的情况人工判断,从而进行故障排除处理。人工判断和处理,需要在近端或维护台进行判断和操作,如果没有值班人员,故障往往要很长时间才可以排除,非常影响系统设备的正常工作时间和故障恢复时间的指标。
技术实现思路
本专利技术实施例提供一种多点故障的处理方法及装置,用以避免因多点故障而造成的系统设备反复切换,避免造成乒乓效应或系统死锁。本专利技术实施例提供的具体技术方案如下:一种多点故障的处理方法,包括:第一交换板按照预设的端口分类模式,分别对本地每一种端口类进行故障检测,筛选出处于正常状态的端口类;其中,一个端口类中包含的各个端口具有相同的操作属性;第一交换板分别获取对应筛选出的每一种处于正常状态的端口类预设的状态权值,并计算出第一状态权值总和,以及获取第二交换板对应的第二状态权值总和,其中,第一交换板与第二交换板互为主备关系,所述第二状态权值总和表征所述第二交换板上处于正常状态的各个端口类对应的状态权值的加和;第一交换板将第一状态权值总和与第二状态权值总和进行比较,并根据比较结果将取值大的一方对应的交换板作为主交换板。较佳的,第一交换板按照预设的端口分类模式,分别对本地每一类端口进行故障检测,包括:第一交换板接收到指令时,分别对本地每一种端口类进行故障检测;或者,第二交换板按照设定的第一扫描周期,分别对本地每一种端口类进行故障检测。较佳的,第一交换板筛选出处于正常状态的端口类,包括:第一交换板分别判断每一种端口类中发生故障的端口数目是否达到相应的故障门限,筛选出发生故障的端口数目未达到相应的故障门限的端口类作为正常状态的端口类。较佳的,第一交换板筛选出处于正常状态的端口类后,计算出所述第一状态权值总和之前,进一步包括:第一交换板判断是否存在发生故障的端口数目达到相应的故障门限的端口类,确定存在时,判定发生多点故障,则确定开始计算所述第一状态权值总和。较佳的,进一步包括:在预处理阶段,分别设置每一种端口类的优先级,并分别按照每一种端口类的优先级设置相应的状态权值,以及分别设置每一种端口类对应的端口数目的故障门限,其中,不同优先级的端口类对应的状态权值之间进行数量级隔离区分。较佳的,第一交换板将第一状态权值总和与第二状态权值总和进行比较,并根据比较结果将取值大的一方对应的交换板作为主交换板,包括:若第一交换板为主交换板,则第一交换板将第一状态权值总和与第二状态权值总和进行比较,若前者大于后者,则维持第一交换板为主交换板,并进行告警;若前者小于后者,则在第一交换板和第二交换板之间进行主备交换;若第一交换板为备交换板,则第一交换板将第一状态权值总和与第二状态权值总和进行比较,若前者大于后者,则在第一交换板和第二交换板之间进行备主交换,若后者大于前者,则维持第二交换板为主交换板,并进行告警。一种多点故障的处理装置,包括:第一处理模块,用于按照预设的端口分类模式,分别对本地每一种端口类进行故障检测,筛选出处于正常状态的端口类;其中,一个端口类中包含的各个端口具有相同的操作属性;计算模块,用于分别获取对应筛选出的每一种处于正常状态的端口类预设的状态权值,并计算出第一状态权值总和,以及获取另一交换板对应的第二状态权值总和,其中,所述装置与所述另一交换板互为主备关系,所述第二状态权值总和表征所述另一交换板上处于正常状态的各个端口类对应的状态权值的加和;第二处理模块,用于对第一状态权值总和与第二状态权值总和进行比较,并根据比较结果执行相应的故障处理。较佳的,按照预设的端口分类模式,分别对本地每一类端口进行故障检测时,所述第一处理模块用于:接收到指令时,分别对本地每一种端口类进行故障检测;或者,按照设定的第一扫描周期,分别对本地每一种端口类进行故障检测。较佳的,筛选出处于正常状态的端口类时,所述第一处理模块用于:分别判断每一种端口类中发生故障的端口数目是否达到相应的故障门限,筛选出发生故障的端口数目未达到相应的故障门限的端口类作为正常状态的端口类。较佳的,筛选出处于正常状态的端口类后,计算出所述第一状态权值总和之前,所述第一处理模块进一步用于:判断是否存在发生故障的端口数目达到相应的故障门限的端口类,确定存在时,判定发生多点故障,则通知所述计算模块开始计算所述第一状态权值总和。较佳的,进一步包括:配置模块,用于在预处理阶段,分别设置每一种端口类的优先级,并分别按照每一种端口类的优先级设置相应的状态权值,以及分别设置每一种端口类对应的端口数目的故障门限,其中,不同优先级的端口类对应的状态权值之间进行数量级隔离区分。较佳的,将第一状态权值总和与第二状态权值总和进行比较,并根据比较结果将取值大的一方对应的交换板作为主交换板时,所述第二处理模块用于:若所述装置为主交换板,则将第一状态权值总和与第二状态权值总和进行比较,若前者大于后者,则维持所述装置为主交换板,并进行告警;若前者小于后者,则在所述装置和另一交换板之间进行主备交换;若所述装置为备交换板,则将第一状态权值总和与第二状态权值总和进行比较,若本文档来自技高网
...
一种多点故障处理方法及装置

【技术保护点】
一种多点故障的处理方法,其特征在于,包括:第一交换板按照预设的端口分类模式,分别对本地每一种端口类进行故障检测,筛选出处于正常状态的端口类;其中,一个端口类中包含的各个端口具有相同的操作属性;第一交换板分别获取对应筛选出的每一种处于正常状态的端口类预设的状态权值,并计算出第一状态权值总和,以及获取第二交换板对应的第二状态权值总和,其中,第一交换板与第二交换板互为主备关系,所述第二状态权值总和表征所述第二交换板上处于正常状态的各个端口类对应的状态权值的加和;第一交换板将第一状态权值总和与第二状态权值总和进行比较,并根据比较结果将取值大的一方对应的交换板作为主交换板。

【技术特征摘要】
1.一种多点故障的处理方法,其特征在于,包括:第一交换板按照预设的端口分类模式,分别对本地每一种端口类进行故障检测,筛选出处于正常状态的端口类;其中,一个端口类中包含的各个端口具有相同的操作属性;第一交换板分别获取对应筛选出的每一种处于正常状态的端口类预设的状态权值,并计算出第一状态权值总和,以及获取第二交换板对应的第二状态权值总和,其中,第一交换板与第二交换板互为主备关系,所述第二状态权值总和表征所述第二交换板上处于正常状态的各个端口类对应的状态权值的加和;第一交换板将第一状态权值总和与第二状态权值总和进行比较,并根据比较结果将取值大的一方对应的交换板作为主交换板。2.如权利要求1所述的方法,其特征在于,第一交换板按照预设的端口分类模式,分别对本地每一类端口进行故障检测,包括:第一交换板接收到指令时,分别对本地每一种端口类进行故障检测;或者,第二交换板按照设定的第一扫描周期,分别对本地每一种端口类进行故障检测。3.如权利要求1所述的方法,其特征在于,第一交换板筛选出处于正常状态的端口类,包括:第一交换板分别判断每一种端口类中发生故障的端口数目是否达到相应的故障门限,筛选出发生故障的端口数目未达到相应的故障门限的端口类作为正常状态的端口类。4.如权利要求3所述的方法,其特征在于,第一交换板筛选出处于正常状态的端口类后,计算出所述第一状态权值总和之前,进一步包括:第一交换板判断是否存在发生故障的端口数目达到相应的故障门限的端口类,确定存在时,判定发生多点故障,则确定开始计算所述第一状态权值总和。5.如权利要求1-4任一项所述的方法,其特征在于,进一步包括:在预处理阶段,分别设置每一种端口类的优先级,并分别按照每一种端口类的优先级设置相应的状态权值,以及分别设置每一种端口类对应的端口数目的故障门限,其中,不同优先级的端口类对应的状态权值之间进行数量级隔离区分。6.如权利要求1-4任一项所述的方法,其特征在于,第一交换板将第一状态权值总和与第二状态权值总和进行比较,并根据比较结果将取值大的一方对应的交换板作为主交换板,包括:若第一交换板为主交换板,则第一交换板将第一状态权值总和与第二状态权值总和进行比较,若前者大于后者,则维持第一交换板为主交换板,并进行告警;若前者小于后者,则在第一交换板和第二交换板之间进行主备交换;若第一交换板为备交换板,则第一交换板将第一状态权值总和与第二状态权值总和进行比较,若前者大于后者,则在第一交换板和第二交换板之间进行备主交换,若后者大于前者,则维持第二交换板为主交换板,并进行告警...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:大唐移动通信设备有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1