故障处理方法技术

技术编号:39666676 阅读:10 留言:0更新日期:2023-12-11 18:30
一种故障处理方法

【技术实现步骤摘要】
故障处理方法、相关设备和系统


[0001]本申请涉及通信领域,尤其涉及一种故障处理方法

相关设备和系统


技术介绍

[0002]在数据中心网络中,由于人为或设备器件因素导致的链路故障问题几乎是无法避免的

一旦出现链路故障,发往故障链路对应端口的数据报文会被丢弃,对业务性能造成很大影响

[0003]图1示例性示出了一种可能的网络架构示意图,如图1所示,服务器
A
通过网络设备连接服务器
B。
网络设备比如为图1中的架顶交换机
(top of rack

ToR)(ToR101

ToR102)
以及脊
(spine)
交换机
(spine103

spine104)。
服务器
A
连接
ToR101

ToR101
分别连接
spine103

spine104(ToR101

spine103
之间的链路的标识为
link
‑1,
ToR101

spine104
之间的链路的标识为
link

2)

spine103

spine104
分别连接
ToR102(ToR102
与<br/>spine103
之间的链路的标识为
link
‑3,
ToR102

spine104
之间的链路的标识为
link

4)
,服务器
B
连接
ToR102。
[0004]该网络架构中的全部链路
(link

1、link

2、link
‑3和
link

4)
全部正常的情况下,该网络架构中的各个网络设备可以通过动态路由协议为从服务器
A
到达服务器
B
的数据流
(
比如数据流
flow1)
计算出两条等价路径:分别为路径
1(link
‑1,
link

3)
和路径
2(link
‑2,
link

4)。
网络架构中的各个网络设备选择一条路径
(
比如根据负载均衡算法选择路径
2(link
‑2,
link

4))
作为数据流
flow1
的路径

[0005]若网络架构中出现故障
(
比如图1中
link
‑4出现故障
)
,各个网络设备可以通过控制面动态路由协议进行周期性的信息交互,具体来说各个网络设备之间发送控制面报文以获得新的拓扑信息,进一步各个网络设备根据新的拓扑信息为数据流
flow1
重新计算路径,得到数据流
flow1
的唯一的一条路径
(link
‑1,
link

3))。
网络设备
(
比如
ToR101)
根据此路径更新网络设备
(
比如
ToR101)
上的用于指导数据流
flow1
转发的路由表项

进一步,网络设备
(
比如
ToR101)
根据更新后的路由表项转发数据流
flow1
的数据报文

比如,
ToR101
根据更新后的路由表项将数据流
flow1
的数据报文发送至
spine103
,从而可以使该数据流
flow1
的数据报文避开故障链路

[0006]上述方案可以在链路出现故障的情况下实现链路的切换

但是,各个网络设备基于控制面动态路由协议进行信息交互以及重新计算路由并更新路由表项的方案的收敛时间一般是秒级,但有些业务
(
比如在线交易类高性能业务
)
的故障收敛性能需求在几个毫秒甚至是亚毫秒级,基于控制面动态路由协议的路径切换收敛技术无法满足在线交易类高性能业务
(
数据库

存储
)
等的可靠性保障需求,在故障发生后,受故障影响的路径上传输的数据报文被大量丢弃


技术实现思路

[0007]本申请提供一种故障处理方法

相关设备和系统,用于在网络故障后较为快速地
进行故障通告,继而减少由于网络故障被丢弃的数据报文的数量

[0008]第一方面,本申请实施提供一种故障处理方法,该方法可以由第一网络设备或第一网络设备内部的单元

模块或芯片执行,本申请中以该方法由第一网络设备执行为例进行示意

该方法包括:
[0009]第一网络设备通过入端口接收第一数据报文

第一网络设备确定第一数据报文对应的第一转发路径故障

当第一网络设备上不存在第一转发路径的冗余路径的情况下,第一网络设备通过入端口发送第一通告报文

第一通告报文用于通告第一转发路径故障,第一通告报文是由第一网络设备的数据面生成的

[0010]由于第一网络设备在数据面生成第一通告报文,因此第一网络设备生成第一通告报文的速度较快

又由于第一通告报文为数据面报文,因此接收到第一通告报文的第二网络设备可以较为快速地获知第一转发路径故障

继而第二网络设备可以较快地根据获知的故障信息对接收到的数据报文进行处理,从而可以减少在故障发生之后,且在各个网络设备的路由表更新完成之前被丢弃的数据报文的数量

[0011]在一种可能的实施方式中,当第一网络设备上存在第一转发路径的冗余路径的情况下,第一网络设备通过第一转发路径的冗余路径发送第一数据报文

由于第一网络设备在确定第一数据报文对应的第一转发路径故障的情况下,可以通过第一转发路径的冗余路径发送第一数据报文,因此可以提高第一数据报文成功到达目的地址的可能性

[0012]在一种可能的实施方式中,第一网络设备确定用于转发第一数据报文的出端口,出端口对应第一转发路径

第一网络设备根据出端口的状态确定第一转发路径故障

[0013]由本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种故障处理方法,其特征在于,包括:第一网络设备通过入端口接收第一数据报文;所述第一网络设备确定所述第一数据报文对应的第一转发路径故障;当所述第一网络设备上不存在所述第一转发路径的冗余路径的情况下,所述第一网络设备通过所述入端口发送第一通告报文,所述第一通告报文用于通告所述第一转发路径故障,所述第一通告报文是由所述第一网络设备的数据面生成的
。2.
如权利要求1所述的方法,其特征在于,所述第一网络设备确定所述第一数据报文对应的第一转发路径故障,包括:所述第一网络设备确定用于转发所述第一数据报文的出端口,所述出端口对应所述第一转发路径;所述第一网络设备根据所述出端口的状态确定所述第一转发路径故障
。3.
如权利要求2所述的方法,其特征在于,所述第一网络设备存储有端口状态表,所述第一网络设备根据所述出端口的状态确定所述第一转发路径故障,包括:所述第一网络设备根据所述端口状态表获取所述出端口的状态;当所述出端口的状态为指定状态时,所述第一网络设备确定所述第一转发路径故障
。4.
如权利要求3所述的方法,其特征在于,所述方法还包括:所述第一网络设备通过数据面的组件周期性的读取用于记录所述出端口的状态的寄存器的值;所述第一网络设备根据所述寄存器的值更新所述端口状态表中所述出端口的状态
。5.
如权利要求3所述的方法,其特征在于,所述方法还包括:所述第一网络设备通过所述出端口发送至少一个探测报文,所述至少一个探测报文是由所述第一网络设备的数据面生成的;所述第一网络设备在预设时长内未接收到所述至少一个探测报文中的一个探测报文或连续多个探测报文的响应报文的情况下,将所述端口状态表中所述出端口的状态更新为所述指定状态
。6.
如权利要求1‑5任一项所述的方法,其特征在于,所述第一通告报文包括:指示信息以及地址信息;所述指示信息指示所述第一通告报文为故障通告报文;所述地址信息承载在所述第一通告报文的负载中,所述地址信息包括所述第一数据报文的目的网络协议
IP
地址和
/
或所述目的
IP
地址对应的
IP
地址前缀
。7.
如权利要求6所述的方法,其特征在于,所述第一通告报文的报文头中还包括用于指示所述第一数据报文的信息;所述用于指示所述第一数据报文的信息包括以下内容中的至少一项:所述第一数据报文的源媒体接入控制
MAC
地址

所述第一数据报文的目的
MAC
地址

所述第一数据报文的源
IP
地址,或所述第一数据报文的目的
IP
地址
。8.
如权利要求7所述的方法,其特征在于,所述第一通告报文满足以下内容中的至少一项:所述第一通告报文的源
MAC
地址为所述第一数据报文的目的
MAC
地址,所述第一通告报文的目的
MAC
地址为所述第一数据报文的源
MAC
地址;或,
所述第一通告报文的源
IP
地址为所述第一数...

【专利技术属性】
技术研发人员:洪荣峰刘世兴冀智刚李灵闫考考李杰温华锋王松林
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1