System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种端网融合的信息处理方法、装置、系统及设备制造方法及图纸_技高网

一种端网融合的信息处理方法、装置、系统及设备制造方法及图纸

技术编号:40449734 阅读:11 留言:0更新日期:2024-02-22 23:09
公开了一种端网融合的信息传输方法、信息处理方法、装置及设备,该方法包括:接收来自网络中多个端设备发送的以队列对qp为粒度的吞吐量信息,以及端到端设备传输的qp信息,获取网络中交换机记录的数据包流量转发信息,根据吞吐量信息、qp信息和数据包流量转发信息,对网络中端到端设备之间的流量进行分析,得到网络的全局流量信息;将全局流量信息转换成全局网络拓扑的流量矩阵,并展示流量矩阵,流量矩阵中包含网络中多个端设备之间流量转发情况和转发路径上的负载情况,从而可清楚地反映模型内不同流量在网络中的转发过程以及规模;从网络角度看,还反映不同路径上的负载情况,为进一步的模型分析、运行排障和网络运维提供便利。

【技术实现步骤摘要】

本公开涉及网络通信领域,尤其是涉及一种端网融合的信息处理方法、装置、系统及设备


技术介绍

1、近些年,随着分布式深度学习(distributed deep learning,ddl)训练模型的规模越来越大,对于数据中心的图形处理器(graphics processing unit,gpu)集群规模要求也越来越高。ddl主要包括数据通信过程和数据计算过程。其中,远程直接存储器存取(remote direct memory access,rdma)由于其具有内核旁路的特点,可以直接在不同主机的内存间进行数据传输,进而降低了数据通信过程对中央处理器(central processingunit,cpu)的占用,使得更多地将cpu资源用于数据计算,因此在目前的gpu集群中,主要使用rdma技术进行通信。

2、当前大部分数据中心使用的都是基于clos(common lisp object system,一种网络编程框架)网络的fat-tree、spine-leaf等架构,这些架构通过多层交换机的组合来进行流量转发,能够以最小建设成本发挥出rdma网卡的全部性能。在以上架构中,主要通过以五元组哈希为依据的等价多路径(equal-cost multi-path,ecmp)路由算法进行流量转发,该算法在一般情况下能够保证流量被正常转发到多条并行链路上,但是当ddl框架规模变大、流量数量变多时,ecmp路由算法很难实现完全的负载均衡,进而在ddl模型训练时,网络管理人员对网络上模型具体运行方式感知较差。虽然通过模型本身可以获取端到端的传输方式,但当流量在clos网络中进行转发时,却是未知的,使得对模型分析、运行排障带来阻碍。


技术实现思路

1、有鉴于此,本公开提供了一种端网融合的信息处理方法、装置及设备,以解决分布式深度学习模型训练时,网络管理人员对网络上模型具体运行方式感知差的问题。

2、第一方面,本公开提供了一种端网融合的信息处理方法,该方法包括:

3、接收来自网络中多个端设备发送的以队列对qp为粒度的吞吐量信息,以及端到端设备传输的qp信息,其中多个端设备形成多个qp,每个qp由发送端和接收端两个端设备组成;

4、获取网络中端到端设备之间的交换机记录的数据包流量转发信息;

5、根据吞吐量信息、qp信息和数据包流量转发信息,对网络中端到端设备之间的流量进行分析,得到网络的全局流量信息;

6、将全局流量信息转换成全局网络拓扑的流量矩阵,并展示流量矩阵,流量矩阵中包含网络中多个端设备之间流量转发情况和转发路径上的负载情况。

7、本方面提供的方法,在评估分析网络全局流量时,获取网络侧终端设备发生的以qp为粒度的吞吐量信息和端到端设备的qp信息,结合qp粒度的吞吐量信息、qp信息和网络交换机侧的数据包流量转发信息,得到网络全局的流量信息,最后将该全局流量信息通过流量矩阵表示,该流量矩阵可以清楚地反映模型内不同流量在网络中的转发过程以及规模;从网络角度看,还反映不同路径上的负载情况,为进一步的模型分析、运行排障和网络运维提供便利。比如该方法为数据中心的故障排查、负载均衡等工作提供了帮助,能够在模型规模不断扩大、模型复杂度不断增加的场景下,对通信模型做到整体把控,具体定位拥塞点,从而进行通信优化。

8、第二方面,本公开提供了另一种端网融合的信息处理方法,应用于网络中的任一端设备,所述任一端设备包括第一端设备,该方法包括:

9、调用内核函数建立与第二端设备的一个队列对qp,并利用扩展伯克利包过滤器ebpf技术得到第一端设备与第二端设备之间的qp信息,qp信息中包括:qp标识、qp建立的时间戳;

10、根据qp标识、时间戳和网卡计数器统计的包序列号psn,计算qp在预设时间段内的发包数量;

11、根据发包数量计算qp的吞吐量信息,将qp的吞吐量信息和qp信息发送至数据中心。

12、本方面提供的方法,在端侧,通过ebpf技术可以获得端与端设备之间的qp信息,比如包括qp标识和qp建立的时间戳,根据这些qp信息和网卡计数器统计的包序列号psn计算出qp在预设时间段内的发包数量,进而计算出qp的吞吐量信息,最后将这些qp的吞吐量信息发送至网络侧的数据中心,使得数据中心根据qp的吞吐量信息做网络全局的流量分析,生成展现全局流量和负载状况的流量矩阵,为进一步做模型分析、运行排障和网络运维提供便利。

13、第三方面,本公开提供了一种端网融合的信息处理装置,该装置包括:

14、接收模块,用于接收来自网络中多个端设备发送的以队列对qp为粒度的吞吐量信息,以及端到端设备传输的qp信息,其中多个端设备形成多个qp,每个qp由发送端和接收端两个端设备组成;

15、获取模块,用于获取网络中端到端设备之间的交换机记录的数据包流量转发信息;

16、处理模块,用于根据吞吐量信息、qp信息和数据包流量转发信息,对网络中端到端设备之间的流量进行分析,得到网络的全局流量信息;

17、转换模块,用于将全局流量信息转换成全局网络拓扑的流量矩阵;

18、展示模块,用于展示流量矩阵,流量矩阵中包含网络中多个端设备之间流量转发情况和转发路径上的负载情况。

19、第四方面,本公开还提供了另一种端网融合的信息处理装置,该装置包括:

20、调用模块,用于调用内核函数建立与第二端设备的一个队列对qp,并利用扩展伯克利包过滤器ebpf技术得到第一端设备与第二端设备之间的qp信息,qp信息中包括:qp标识、qp建立的时间戳;

21、计算模块,用于根据qp标识、时间戳和网卡计数器统计的包序列号psn,计算qp在预设时间段内的发包数量;

22、计算模块,还用于根据发包数量计算qp的吞吐量信息;

23、发送模块,用于将qp的吞吐量信息和qp信息发送至数据中心。

24、第五方面,本公开提供了一种电子设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式所述的端网融合的信息处理方法。

25、此外,该电子设备还用于执行前述第二方面或其对应的任一实施方式所述的端网融合的信息处理方法。

26、另外,本公开提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法,或者执行前述第二方面或其对应的任一实施方式所述的端网融合的信息处理方法。

27、第六方面,本公开提供了一种端网融合系统,该系统中包括至少两个端设备和数据中心,其中,两个或两个以上端设备之间通过至少一个交换机连接;

28、并且,所述数据中心用于执行前述第一方面所述的端网融合的信息处理方法;每个所述端设备用于执行前述第二方面所述的端网融合的信息处理方本文档来自技高网...

【技术保护点】

1.一种端网融合的信息处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述吞吐量信息、所述qp信息和所述数据包流量转发信息,对所述网络中端到端设备之间的流量进行分析,得到所述网络的全局流量信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述全局流量信息转换成全局网络拓扑的流量矩阵,并展示所述流量矩阵,包括:

4.根据权利要求2所述的方法,其特征在于,所述对所述网络中端到端设备之间的流量进行分析,得到所述网络的全局流量信息,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述网络中端到端设备之间的交换机记录的数据包流量转发信息,包括:

6.根据权利要求1-4任一项所述的方法,其特征在于,所述展示所述流量矩阵,包括:

7.一种端网融合的信息处理方法,其特征在于,应用于网络中的任一端设备,所述任一端设备包括第一端设备,所述方法包括:

8.根据权利要求7所述的方法,其特征在于,所述利用扩展伯克利包过滤器eBPF技术得到所述第一端设备与所述第二端设备之间的qp信息,包括:

9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:

10.一种端网融合的信息处理装置,其特征在于,所述装置包括:

11.一种端网融合的信息处理装置,其特征在于,所述装置包括:

12.一种端网融合系统,其特征在于,所述系统包括至少两个端设备和数据中心,所述两个端设备之间通过至少一个交换机连接;

13.一种电子设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器相连接;

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至6,或7至9中任一项所述的端网融合的信息处理方法。

...

【技术特征摘要】

1.一种端网融合的信息处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述吞吐量信息、所述qp信息和所述数据包流量转发信息,对所述网络中端到端设备之间的流量进行分析,得到所述网络的全局流量信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述全局流量信息转换成全局网络拓扑的流量矩阵,并展示所述流量矩阵,包括:

4.根据权利要求2所述的方法,其特征在于,所述对所述网络中端到端设备之间的流量进行分析,得到所述网络的全局流量信息,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述网络中端到端设备之间的交换机记录的数据包流量转发信息,包括:

6.根据权利要求1-4任一项所述的方法,其特征在于,所述展示所述流量矩阵,包括:

7.一种端网融合的信息处理方法,其特征在于,应用于网络中的任一端设备...

【专利技术属性】
技术研发人员:王磊江卓张宇超郑陈粤王剑
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1