【技术实现步骤摘要】
故障检测方法、装置、设备和系统
本专利技术涉及互联网
,尤其涉及故障检测方法、装置、设备和系统。
技术介绍
在分布式系统中,特别是大规模分布式系统中,由于服务器数量较多,服务器之间网络连接关系复杂,服务器之间通信的链路发生链路故障概率较高。当发生链路故障后,如何快速检测,以减少链路故障引起系统的性能以及可靠性降低,是目前亟需解决的问题。为解决上述问题,现有基于远程直接存储器存取(remotedirectmemoryaccess,RDMA)协议通信的分布式系统中,提出采用基于心跳包的链路检测方案。具体地,节点A的中央处理器(centralprocessingunit,CPU)通过RDMA协议与节点B通信时,可绕过节点B的CPU,直接访问节点B的内存,以周期性地将心跳包写到节点B的内存中。相应地,节点B的CPU可周期性地查询自身内存,以获知是否接收到节点A发送的心跳包。由于网络故障或节点故障(例如节点的CPU故障)等原因,导致节点B无法从自身内存中查询到节点A发送的数据包。此时,可认为节点A和节点B之间发生 ...
【技术保护点】
1.一种故障检测方法,其特征在于,所述方法包括:/n主管理节点的网卡获取跟随节点的网卡发送的授权消息,所述授权消息包括所述跟随节点的授权有效时长,所述主管理节点用于管理所述跟随节点,所述授权有效时长为所述主管理节点的网卡和所述跟随节点的网卡之间通信授权时长的剩余时长,所述主管理节点的网卡和所述跟随节点的网卡支持远程直接存储器存取协议RDMA;/n当所述授权有效时长小于或等于第一阈值时,所述主管理节点的网卡向所述主管理节点的处理器发送第一通知消息,所述第一通知消息用于指示所述跟随节点的有效授权即将超期,以便于所述主管理节点的处理器根据所述第一通知消息确定所述跟随节点的状态,所 ...
【技术特征摘要】
1.一种故障检测方法,其特征在于,所述方法包括:
主管理节点的网卡获取跟随节点的网卡发送的授权消息,所述授权消息包括所述跟随节点的授权有效时长,所述主管理节点用于管理所述跟随节点,所述授权有效时长为所述主管理节点的网卡和所述跟随节点的网卡之间通信授权时长的剩余时长,所述主管理节点的网卡和所述跟随节点的网卡支持远程直接存储器存取协议RDMA;
当所述授权有效时长小于或等于第一阈值时,所述主管理节点的网卡向所述主管理节点的处理器发送第一通知消息,所述第一通知消息用于指示所述跟随节点的有效授权即将超期,以便于所述主管理节点的处理器根据所述第一通知消息确定所述跟随节点的状态,所述状态包括正常和故障。
2.根据权利要求1所述方法,其特征在于,在所述主管理节点的网卡获取所述跟随节点的网卡发送的授权消息之前,所述方法包括:
所述主管理节点的网卡向所述跟随节点的网卡发送第一授权请求消息,所述第一授权请求消息用于所述主管理节点的网卡请求与所述跟随节点的网卡之间通信的权限和时长;
所述主管理节点的网卡接收所述跟随节点的网卡发送所述第一授权请求消息的响应消息,所述第一授权请求消息的响应消息包括所述主管理节点的网卡允许与所述跟随节点的网卡之间通信的时长;
则所述主管理节点的网卡获取跟随节点的网卡发送的授权消息,包括:
所述主管理节点的网卡获取当前时刻所述主管理节点的网卡允许与所述跟随节点的网卡之间通信权限的剩余时长。
3.根据权利要求2所述方法,其特征在于,所述方法还包括:
所述主管理节点的网卡周期性向所述跟随节点发送第一授权查询消息;
当所述主管理节点的网卡在第一预置时长内未收到所述跟随节点发送的所述第一授权查询消息的响应消息时,所述主管理节点的网卡确定所述主管理节点的网卡和所述跟随节点的网卡之间的通信链路故障。
4.根据权利要求1至3中任一所述方法,其特征在于,所述主管理节点的网卡向所述主管理节点的处理器发送第一通知消息,包括:
所述主管理节点的网卡采用中断方式向所述主管理节点的处理器发送所述第一通知消息;
则在所述主管理节点的网卡向所述主管理节点的处理器发送第一通知消息之后,所述方法还包括:
所述主管理节点的网卡向所述跟随节点发送第三授权请求消息,所述第三授权请求消息用于在所述主管理节点的网卡根据所述第一授权请求消息获取的授权时长到期前,向所述跟随节点的网卡再次获取与所述跟随节点的网卡通信的权限和时长;
则所述主管理节点的处理器确定所述跟随节点的状态,包括:
所述主管理节点的处理器接收到所述主管理节点的网卡发送与所述跟随节点的网卡之间通信链路异常的通知的次数达到第二阈值时,确定所述跟随节点故障。
5.根据权利要求1所述方法,其特征在于,所述方法还包括:
所述主管理节点的网卡接收所述跟随节点的网卡发送的第二授权请求消息,所述第二授权请求消息用于所述跟随节点的网卡请求与所述主管理节点的网卡通信的权限和时长;
所述主管理节点的网卡向所述跟随节点的网卡发送第二授权请求的响应消息,所述第二授权请求的响应消息包括所述主管理节点的网卡允许与所述跟随节点的网卡通信的时长;
所述主管理节点的网卡接收所述跟随节点的网卡发送的第二授权查询消息,所述第二授权查询消息用于所述跟随节点的网卡确定所述主管理节点的网卡和所述跟随节点的网卡之间的通信链路是否故障,当所述跟随节点的网卡在第二预置时间内未收到所述主管理节点的网卡发送的所述第二授权查询消息的响应消息时,所述跟随节点的网卡确定所述主管理节点的网卡和所述跟随节点的网卡之间的通信链路故障。
6.根据权利要求5所述方法,其特征在于,在所述主管理节点的网卡向所述跟随节点的网卡发送第二授权请求的响应消息之前,所述方法还包括:
所述主管理节点的网卡查询最近一次接收所述主管理节点的处理器的状态监控消息的时间间隔,当所述最近一次接收所述主管理节点的处理器的状态监控消息的时间间隔大于或等于第三阈值时,所述主管理节点的网卡确定所述主管理节点的处理器故障。
7.一种故障检测装置,其特征在于,所述装置包括获取模块以及通信模块;其中,
所述获取模块,用于获取跟随节点的网卡发送的授权消息,所述授权消息...
【专利技术属性】
技术研发人员:孙贝磊,周超,徐建荣,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。