丢包定位方法、装置、计算设备及介质制造方法及图纸

技术编号:33837449 阅读:26 留言:0更新日期:2022-06-16 11:56
公开了一种丢包定位方法、装置、计算设备及介质,所述方法包括:获取服务器集群的非应答NAK监控数据,所述NAK监控数据指示在进行数据传输过程中发生丢包事件的发送方和接收方的IP地址;根据所述NAK监控数据确定第一服务器,所述第一服务器为IP地址出现次数大于第一设定阈值的服务器;通过根据第一服务器的数量初步判断引起丢包事件的可能是服务器或者交换机,结合所述NAK监控数据与所述服务器集群的异常监测数据的关联性,可以进一步确定引起丢包事件的第一服务器中的目标网卡,或者交换机的目标端口,实现了基于服务器集群的NAK监控数据对网络丢包事件进行高效、细粒度的定位。位。位。

【技术实现步骤摘要】
丢包定位方法、装置、计算设备及介质


[0001]本说明书一个或多个实施例涉及通信
,尤其涉及一种丢包定位方法、装置、计算设备及介质。

技术介绍

[0002]远程直接内存访问(Remote Direct Memory Access,RDMA)技术能够提供高带宽、低时延和低CPU负载的特性,随着对网络性能要求的提高,RDMA网络技术的应用也日益广泛。而随着应用RDMA技术的需求的增加,诞生了基于融合以太网的远程直接内存访问(RDMA over Converged Ethernet,RoCE)技术。目前众多的大规模数据中心部署RoCE网络。虽然RoCE网络引入了多种拥塞控制机制,但还是有一定的丢包概率。对于大规模RoCE网络而言,丢包的定位效率和定位准确度成为影响RoCE网络质量的重要一环,因此需要提出一种针对大规模RoCE网络进行丢包定位的方法。

技术实现思路

[0003]有鉴于此,本说明书一个或多个实施例提供一种丢包定位方法、装置、计算设备及介质。为实现上述目的,本说明书一个或多个实施例提供技术方案如下。
[0004]根据本说明书一个或多个实施例的第一方面,提出了一种丢包定位方法,该方法包括:
[0005]获取服务器集群的非应答NAK监控数据,所述NAK监控数据指示在进行数据传输过程中发生丢包事件的发送方和接收方的IP地址;
[0006]根据所述NAK监控数据确定第一服务器,所述第一服务器为IP地址出现次数大于第一设定阈值的服务器;
[0007]根据所述服务器集群中存在所述第一服务器的数目,以及所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的目标对象。
[0008]在一些实施例中,所述根据所述服务器集群中存在所述第一服务器的数目,以及所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的目标对象,包括:
[0009]响应于所述服务器集群中存在一个第一服务器,根据所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的第一服务器的目标网卡;
[0010]响应于存在多个第一服务器,根据所述服务器集群的拓扑结构以及所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的交换机的目标端口。
[0011]在一些实施例中,所述方法还包括:接收丢包告警,所述丢包告警指示第一范围内的服务器集群在第一时间范围内存在丢包事件;
[0012]所述获取服务器集群的非应答NAK监控数据,包括:
[0013]响应于所述丢包告警,获取所述第一范围内的服务器集群在所述第一时间范围内
的NAK监控数据。
[0014]在一些实施例中,所述根据所述NAK监控数据确定第一服务器包括:
[0015]根据所述服务器集群的NAK监控数据生成节点图,所述节点图中的节点指示所述服务器集群中各个服务器的IP地址,两个节点之间的边指示NAK监控数据;
[0016]根据度大于所述第一设定阈值的节点,确定所述第一服务器,其中,所述度指示与所述节点相关联的边的数目。
[0017]在一些实施例中,所述第一服务器具有多个网卡,每个网卡通过一条链路上联至交换机的端口;
[0018]所述根据所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的第一服务器的目标网卡,包括:
[0019]根据所述NAK监控数据与所述第一服务器的各个网卡的异常监测数据之间的关联性,以及所述NAK监控数据与各个网卡所连接的交换机的端口的异常监测数据之间的关联性,确定引起丢包事件的网卡与交换机端口之间的链路;
[0020]根据所述链路对应的网卡确定引起丢包事件的所述第一服务器的目标网卡
[0021]在一些实施例中,所述方法还包括:
[0022]根据丢包时间范围与第一异常时间范围的重合度确定所述NAK监控数据与所述第一服务器的各个网卡的异常监测数据之间的关联性,其中,所述丢包时间范围为所述NAK监控数据所指示的丢包事件的时间范围,所述第一异常时间范围指示所述第一服务器的各个网卡的异常监测数据指示的异常事件发生的时间范围;
[0023]根据所述丢包时间范围与第二异常时间范围的重合度,确定所述NAK监控数据与各个网卡所连接的交换机的端口的异常监测数据之间的关联性,其中,所述第二异常时间范围指示与各个网卡连接的交换机的端口的异常监测数据指示的异常事件发生的时间范围。
[0024]在一些实施例中,所述响应于存在多个第一服务器,根据所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的交换机的目标端口,包括:
[0025]根据所述服务器集群的拓扑结构以及所述NAK监控数据指示在数据传输过程中发生丢包事件的发送方以及接收方的IP地址,确定发生丢包事件的交换机的IP地址;
[0026]根据所述发生丢包事件的交换机的IP地址确定第一交换机,所述第一交换机为IP地址出现次数大于第二设定阈值的交换机;
[0027]根据所述NAK监控数据与所述第一交换机的各个端口的异常监测数据之间的关联性,确定发生丢包事件的第一交换机的目标端口。
[0028]在一些实施例中,所述根据所述发生丢包事件的交换机的IP地址确定第一交换机,所述第一交换机为IP地址出现次数大于第二设定阈值的交换机,包括:
[0029]根据发生丢包事件的交换机的IP地址生成第二节点图,所述第二节点图中的节点指示发生丢包事件的交换机的IP地址,两个节点之间的边指示NAK监控数据;根据度大于所述第二设定阈值的节点,确定所述第一交换机,其中,所述度指示与所述节点相关联的边的数目。
[0030]在一些实施例中,所述根据所述NAK监控数据与所述第一交换机的各个端口的异常监测数据之间的关联性,确定发生丢包事件的第一交换机的目标端口,包括:
[0031]根据所述NAK监控数据所指示的丢包事件的时间范围,与所述第一交换机的各个端口的异常监测数据所指示的异常事件的时间范围之间的重合度,确定所述NAK监控数据与所述第一交换机的各个端口的异常监测数据之间的关联性。
[0032]根据本说明书一个或多个实施例的第二方面,提出了一种丢包定位装置,该装置包括:
[0033]获取单元,用于获取服务器集群的非应答NAK监控数据,所述NAK监控数据指示在进行数据传输过程中发生丢包事件的发送方和接收方的IP地址;
[0034]确定单元,用于根据所述NAK监控数据确定第一服务器,所述第一服务器为IP地址出现次数大于第一设定阈值的服务器;
[0035]定位单元,用于根据所述服务器集群中存在所述第一服务器的数目,以及所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的目标对象。
[0036]在一些实施例中,所述定位单元具体用于:响应于所述服务器集群中存在一个第一服务器,根据所述NAK监控数据与所述服务器集群的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种丢包定位方法,其特征在于,所述方法包括:获取服务器集群的非应答NAK监控数据,所述NAK监控数据指示在进行数据传输过程中发生丢包事件的发送方和接收方的IP地址;根据所述NAK监控数据确定第一服务器,所述第一服务器为IP地址出现次数大于第一设定阈值的服务器;根据所述服务器集群中存在所述第一服务器的数目,以及所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的目标对象。2.根据权利要求1所述的方法,其特征在于,所述根据所述服务器集群中存在所述第一服务器的数目,以及所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的目标对象,包括:响应于所述服务器集群中存在一个第一服务器,根据所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的第一服务器的目标网卡;响应于存在多个第一服务器,根据所述服务器集群的拓扑结构以及所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的交换机的目标端口。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:接收丢包告警,所述丢包告警指示第一范围内的服务器集群在第一时间范围内存在丢包事件;所述获取服务器集群的非应答NAK监控数据,包括:响应于所述丢包告警,获取所述第一范围内的服务器集群在所述第一时间范围内的NAK监控数据。4.根据权利要求2所述的方法,其特征在于,所述根据所述NAK监控数据确定第一服务器包括:根据所述服务器集群的NAK监控数据生成第一节点图,所述第一节点图中的节点指示所述服务器集群中各个服务器的IP地址,两个节点之间的边指示NAK监控数据;根据度大于所述第一设定阈值的节点,确定所述第一服务器,其中,所述度指示与所述节点相关联的边的数目。5.根据权利要求2至4任一项所述的方法,其特征在于,所述第一服务器具有多个网卡,每个网卡通过链路上联至交换机的端口;所述根据所述NAK监控数据与所述服务器集群的异常监测数据的关联性,确定引起丢包事件的第一服务器的目标网卡,包括:根据所述NAK监控数据与所述第一服务器的各个网卡的异常监测数据之间的关联性,以及所述NAK监控数据与各个网卡所连接的交换机的端口的异常监测数据之间的关联性,确定引起丢包事件的网卡与交换机端口之间的链路;根据所述链路对应的网卡确定引起丢包事件的所述第一服务器的目标网卡。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据丢包时间范围与第一异常时间范围的重合度确定所述NAK监控数据与所述第一服务器的各个网卡的异常监测数据之间的关联性,其中,所述丢包时间范围为所述NAK监控数据所指示的丢包事件的时间范围,所述第一异常时间范围指示所述第一服务器的各个网卡的异常监测数据指示的异常事件发生的时间范围;根据所述丢包时...

【专利技术属性】
技术研发人员:黄建博焦海荣刘阳
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1