故障检测方法、LPU和分布式网络通信设备技术

技术编号:17883459 阅读:44 留言:0更新日期:2018-05-06 04:07
本发明专利技术公开了一种故障检测方法、LPU和分布式网络通信设备,涉及分布式软件领域,用于对LPU出现故障进行检测。该故障检测方法,用于对LPU的业务任务进行故障检测,该方法包括:在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;如果经过连续N次检测,只能检测到所述第一信息而无法检测到所述第二信息,则判断所述业务任务发生故障。本发明专利技术的实施例应用于分布式网络通信设备。

Fault detection methods, LPU and distributed network communication devices

The invention discloses a fault detection method, a LPU and a distributed network communication device, which relates to the field of distributed software, and is used for detecting LPU faults. The fault detection method is used to detect the fault of the business task of the LPU, which includes: recording the first information before a business task processes the control message, the first information indicating that the business task is about to enter the processing flow; after the business task has completed the control message, the record second is recorded. The second information indicates that the business task completed the process of the processing; if the first information can only be detected and the second information can not be detected by a continuous N test, a fault of the business task is judged. The embodiment of the invention should be applied to the distributed network communication equipment.

【技术实现步骤摘要】
故障检测方法、LPU和分布式网络通信设备
本专利技术涉及分布式软件领域,尤其涉及一种故障检测方法、LPU和分布式网络通信设备。
技术介绍
参照图1中所示,分布式网络通信设备包括MPU(英文全称:masterprocessunit,中文全称:主控处理单元,简称:主控卡)和多个分布式部件LPU(英文全称:lineprocessunit,中文全称:线路处理单元,简称:线卡)。在现有技术中,LPU处理MPU发送的控制消息流程中出现故障后,需要手工对业务任务进行跟踪。这对于一般的技术人员来说,无疑是一个比较大挑战。另外,在无人值守的情况下,LPU出现故障后,可能导致LPU通信长时间中断,需要定位故障和恢复故障。基于此,LPU上有必要提供一种自动检测业务任务处理MPU的控制消息故障的机制,自动检测业务任务的故障。
技术实现思路
本专利技术的实施例提供一种故障检测方法、LPU和分布式网络通信设备,用于对LPU出现故障进行检测。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供了一种故障检测方法,用于对LPU的业务任务进行故障检测,该方法包括:在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。第二方面,提供了一种LPU,其特征在于,用于对LPU的多个业务任务进行故障检测,该LPU包括:记录单元,用于在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;所述记录单元,还用于在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;判断单元,用于经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。第三方面,提供了一种分布式网络通信设备,包括如第二方面所述的LPU和MPU,所述MPU用于向所述LPU发送控制消息。本专利技术的实施例提供的故障检测方法、LPU和分布式网络通信设备,通过LPU上的业务任务在进行处理控制消息之前记录第一消息,在该业务任务完成处理控制消息之后记录第二消息,如果经过多次检测只能检测到第一消息而无法检测到第二消息,则说明该业务任务无法完成控制消息的处理,因此可以认为该业务任务发生了故障,从而实现了对LPU出现故障进行检测。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的实施例提供的分布式网络通信设备的结构示意图;图2为本专利技术的实施例提供的故障检测方法的流程示意图;图3为本专利技术的实施例提供的LPU的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参照图1中所示,本专利技术实施例提供了一种分布式网络通信设备,该设备包括:MPU11和LPU12。MPU11与LPU12通过卡间通信通道互相通信。LPU12上有多个业务模块,每个业务模块对应一个业务任务,MPU11向LPU12的某个业务模块发送控制消息,由LPU12通过控制消息分类发送给对应的业务任务进行处理,LPU12上的各个业务任务向MPU11发送消息或者协议报文。同时,LPU12上还运行监控任务,用于对LPU12的业务任务进行故障检测,MPU11还用于在接收到LPU12发送的故障消息后,根据故障处理策略对故障进行处理。监控任务优先级设置为最高,这样可以使得业务任务即使出现死循环,监控任务仍然能够运行。本专利技术的实施例提供的故障检测方法、装置和系统,通过LPU上的业务任务在进行处理控制消息之前和之后分别生成指示消息,如果经过多次检测只能检测到处理控制消息之前的指示消息而无法检测到处理控制消息之后的指示消息,则说明该业务任务无法完成控制消息的处理,因此可以认为该业务任务发生了故障,从而实现了对LPU出现故障进行检测。实施例1、本专利技术的实施例提供了一种故障检测方法,应用于上述分布式网络通信设备LPU中的监控任务,参照图2中所示,该方法包括:S101、在一个业务任务处理控制消息之前,记录第一信息,第一信息指示该业务任务即将进入处理流程。LPU接收到MPU的控制消息后,将控制消息分类后放入对应业务任务的接收队列。对应的业务任务从接收队列中获取控制消息,获取到控制消息后,在进行处理之前,记录下第一信息,表示即将进入对该控制消息的处理流程。具体的处理控制消息的流程实现技术有很多种,一般需要进行若干层的函数的调用,在此不再赘述。第一消息可以有多种表现形式,只要能够表明该业务任务即将进入处理流程即可。例如,可以用第一计数器的计数值来指示第一消息,当第一计数器加M时即表示记录下第一消息,M为正整数,优选为1,M的值可以根据经验值设定。也可以用第一标志位的取反操作来指示第一消息,当对第一标志位取反时即表示记录下第一消息。第一标志位和第二标志位可以通过全局变量来设置。本领域技术人员还可以想到其他方式来记录第一消息,本专利技术在此不作限定。S102、在该业务任务处理完上述控制消息之后,记录第二信息,第二信息指示该业务任务完成上述处理流程。与第一消息对应的,第二消息也可以有多种表现形式,只要能够表明该业务任务完成上述处理流程即可。例如,当通过对第一计数器的计数值来指示第一消息时,同样可以用第二计数器的计数值来指示第二消息,当第二计数器同样加M时即表示记录下第二消息。当通过对第一标志位的取反操作来指示第一消息时,同样可以用第二标志位的取反操作来指示第二消息,对第二标志位取反时即表示记录下第二消息。本领域技术人员还可以想到其他方式来记录第二消息,本专利技术在此不作限定。需要说明的是,记录第一消息与第二消息需要采用相同的处理方式,并且当采用相同处理方式时,所采用的默认值应该相同。例如,当都采用对计数值计数时,第一计数器的默认值与第二计数器的默认值相同;当都采用标志位取反操作时,第一标志位的默认值与第二标志位的默认值相同。S103、经过设定次数的检测,如果连续检测到第一信息与第二信息不一致,则判断该业务任务发生故障。如果该业务任务记录完第一信息之后,进行控制消息处理时,出现诸如内存访问越界、获取不到信号量、死循环等严重故障时,始终无法退出处理流程,因此不能记录第二信息,即无法更新第二计数器的值或者执行第二标志位取反的操作,监控任务可以连续N次检测,如果连续N次检测第一信息和第二信息的值不一致且第一信息比第二信息值大M,则认为该业务任务出现了故障。N的值可以根据经验值设定。具体的,当通过对第一计数器的计数来指示第一消息,通过对第二计数器的计数来指示第二消息时,经过设定次数的检测,如果连续检测本文档来自技高网...
故障检测方法、LPU和分布式网络通信设备

【技术保护点】
一种故障检测方法,其特征在于,用于对LPU的业务任务进行故障检测,所述方法包括:在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。

【技术特征摘要】
1.一种故障检测方法,其特征在于,用于对LPU的业务任务进行故障检测,所述方法包括:在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述业务任务即将进入处理流程;在所述业务任务处理完所述控制消息之后,记录第二信息,所述第二信息指示所述业务任务完成所述处理流程;经过设定次数的检测,如果连续检测到所述第一信息与所述第二信息不一致,则判断所述业务任务发生故障。2.根据权利要求1所述的方法,其特征在于,所述记录第一信息,包括:第一计数器加M,M为正整数;所述记录第二信息,包括:第二计数器加M,所述第二计数器的默认值与所述第一计数器的默认值相同;所述连续检测到所述第一信息与所述第二信息不一致,包括:连续检测到所述第一计数器的值比所述第二计数器的值多M。3.根据权利要求1所述的方法,其特征在于,所述记录第一信息,包括:第一标志位取反;所述记录第二信息,包括:第二标志位取反,所述第二标志位的默认值与所述第一标志位的默认值相同;所述连续检测到所述第一信息与所述第二信息不一致,包括:连续检测到所述第一标志位的值不等于所述第二标志位的值。4.根据权利要求1所述的方法,其特征在于,在所述判断所述业务任务发生故障之后,所述方法还包括:对所述业务任务进行函数调用层次跟踪,并将函数调用层次关系记录到本地或者发送给MPU。5.一种LPU,其特征在于,用于对LPU的业务任务进行故障检测,所述LPU包括:记录单元,用于在一个业务任务处理控制消息之前,记录第一信息,所述第一信息指示所述一个业务任务即将进入处理流程;...

【专利技术属性】
技术研发人员:何三波
申请(专利权)人:迈普通信技术股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1