一种分布式通信网络的故障检测方法及装置制造方法及图纸

技术编号:26482140 阅读:36 留言:0更新日期:2020-11-25 19:28
本申请公开了一种分布式通信网络的故障检测方法及装置,用以降低DCN网络业务进程故障检测的开销。该方法包括:第一节点通过第一代理进程向第二代理进程发送第一探测报文,第一探测报文用于判断第一节点中的第一代理进程与第二节点中的第二代理进程之间的物理链路是否故障;第一节点在根据第一探测报文确定物理链路故障时,通过第一代理进程向一个或多个第一业务进程通知物理链路故障的信息;第一节点在确定满足启用条件时,启用第一业务进程向第二业务进程发送第二探测报文,第二探测报文用于判断第一业务进程和第二业务进程之间的逻辑链路是否故障,启用条件包括第一业务进程接收到物理链路故障的信息。

【技术实现步骤摘要】
一种分布式通信网络的故障检测方法及装置
本申请实施例涉及通信
,尤其涉及一种分布式通信网络的故障检测方法及装置。
技术介绍
分布式通信网络(distributedcommunicationnetwork,DCN)中包括海量节点。每个节点在各自的操作系统上部署了大量的业务进程,这样DCN中会存在海量的业务进程。不同的业务进程之间具有数据通信的诉求,不同的业务进程之间通过网际互联协议(internetprotocol,IP)栈建立通信链路,以实现数据通信。通信链路若发生故障或异常,将会影响业务进程之间的数据通信。为了提高数据通信的可靠性,需要通过故障检测方法来识别链路是否故障或异常。现有技术中,业务进程之间的通信链路的故障检测通过心跳报文来识别。具体的,业务进程1向业务进程2发送心跳报文,业务进程2接收到心跳报文后,会向业务进程1反馈响应,业务进程1收到响应,确定链路正常,否则确定链路异常。但是在DCN海量业务进程的场景下,每条链路基于心跳报文来探测故障,就会产生海量心跳报文。海量心跳报文的传输和处理会大量占用CPU、内存以及本文档来自技高网...

【技术保护点】
1.一种分布式通信网络的故障检测方法,其特征在于,所述分布式通信网络包括多个节点,其中,第一节点中的第一代理进程与第二节点中的第二代理进程之间具有物理链路,所述第一节点中运行一个或多个第一业务进程,所述第二节点中运行一个或多个第二业务进程,所述第一业务进程和所述第二业务进程之间具有逻辑链路;其中,所述第一节点和第二节点是所述多个节点中的任意两个节点;/n所述方法包括:/n所述第一节点通过所述第一代理进程向所述第二代理进程发送第一探测报文,所述第一探测报文用于判断所述物理链路是否故障;/n所述第一节点在根据所述第一探测报文确定所述物理链路故障时,通过所述第一代理进程向所述一个或多个第一业务进程通...

【技术特征摘要】
1.一种分布式通信网络的故障检测方法,其特征在于,所述分布式通信网络包括多个节点,其中,第一节点中的第一代理进程与第二节点中的第二代理进程之间具有物理链路,所述第一节点中运行一个或多个第一业务进程,所述第二节点中运行一个或多个第二业务进程,所述第一业务进程和所述第二业务进程之间具有逻辑链路;其中,所述第一节点和第二节点是所述多个节点中的任意两个节点;
所述方法包括:
所述第一节点通过所述第一代理进程向所述第二代理进程发送第一探测报文,所述第一探测报文用于判断所述物理链路是否故障;
所述第一节点在根据所述第一探测报文确定所述物理链路故障时,通过所述第一代理进程向所述一个或多个第一业务进程通知所述物理链路故障的信息;
所述第一节点在确定满足启用条件时,启用所述第一业务进程向所述第二业务进程发送第二探测报文,所述第二探测报文用于判断所述逻辑链路是否故障,所述启用条件包括所述第一业务进程接收到所述物理链路故障的信息。


2.如权利要求1所述的方法,其特征在于,所述启用条件还包括以下一项或多项:所述第一业务进程发送数据报文发生拥塞;所述第一业务进程在设定时间内未接收到所述第二业务进程的数据报文;所述第一业务进程从所述第二业务进程接收到的数据报文发生错误。


3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
所述第一节点通过所述第一代理进程从所述第二代理进程接收第三探测报文;所述第三探测报文用于判断所述物理链路是否故障。


4.如权利要求1~3任一项所述的方法,其特征在于,所述方法还包括:
所述第一节点根据所述第一节点中第一物理网口的状态,判断所述物理链路是否故障,其中,所述第一物理网口的状态包括打开状态和关闭状态。


5.如权利要求...

【专利技术属性】
技术研发人员:赵新星
申请(专利权)人:北京华为数字技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1