System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据通信方法、装置、服务器及存储介质制造方法及图纸_技高网

数据通信方法、装置、服务器及存储介质制造方法及图纸

技术编号:41201095 阅读:2 留言:0更新日期:2024-05-07 22:27
本发明专利技术涉及服务器集群技术领域,公开了数据通信方法、装置、服务器及存储介质,该方法包括:获取服务器集群中各个服务器的第一连接关系和第二连接关系;第一连接关系包括服务器的各个内部组件之间的内部连接方式,第二连接关系包括服务器的网络适配器与所接入的服务器集群中网络设备之间的对应关系;将多个服务器的第一连接关系和第二连接关系合并为全局连接关系;根据内部组件之间的连接方式确定内部组件之间的距离,将全局连接关系转换为全局距离关系,并规划出遍历每个加速组件的最短通信路径。本发明专利技术可以构建出全局的最短通信路径,基于该最短通信路径执行训练任务,可以提升服务器集群的通信效率。

【技术实现步骤摘要】

本专利技术涉及服务器集群,具体涉及数据通信方法、装置、服务器及存储介质


技术介绍

1、随着人工智能模型规模和训练数据越来越大,对模型进行训练的服务器集群也会越来越大。在每台服务器中,也会有多块计算加速组件参与训练,每个加速组件均可作为一个训练节点。其中,该加速组件具体可以为gpu(graphic processing unit,图形处理器)、tpu(tensor processing unit,张量处理器)等。

2、在大集群训练过程中,每个参与训练的节点之间要同步大量的通信,以进行参数同步。目前的训练过程难以合理利用多个服务器中的训练节点,通信效率较低。


技术实现思路

1、有鉴于此,本专利技术提供了一种数据通信方法、装置、服务器及存储介质,以解决现有训练过程通信效率较低的问题。

2、第一方面,本专利技术提供了一种数据通信方法,应用于目标服务器,包括:

3、获取服务器集群中各个服务器的第一连接关系和第二连接关系;所述第一连接关系包括所述服务器的各个内部组件之间的内部连接方式,所述第二连接关系包括所述服务器的网络适配器与所接入的服务器集群中网络设备之间的对应关系;其中,所述内部组件包括网络适配器和加速组件;

4、将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系;所述全局连接关系包括多个所述服务器的各个内部组件之间的连接方式;

5、根据内部组件之间的连接方式确定内部组件之间的距离,将所述全局连接关系转换为包括多个所述服务器的各个内部组件之间距离的全局距离关系;

6、采用一定的路径规划算法,根据所述全局距离关系规划出遍历每个加速组件的最短通信路径;

7、控制所述服务器集群中的各个服务器按照所述最短通信路径进行数据通信。

8、在一些可选的实施方式中,所述服务器的第一连接关系通过以下方式生成:

9、定义所述服务器中各个内部组件的全局编号;所述全局编号包括服务器编号和组件编号;

10、根据所述服务器的内部组件的拓扑信息,确定任意两个内部组件之间连接效率满足预设要求的内部连接方式;

11、根据所述全局编号记录所述服务器的各个内部组件之间的内部连接方式,生成第一连接关系。

12、在一些可选的实施方式中,所述方法还包括:

13、在所述服务器的内部组件的状态发生变化的情况下,更新所述服务器的内部组件的拓扑信息,并重新确定任意两个内部组件之间连接效率满足预设要求的内部连接方式。

14、在一些可选的实施方式中,所述将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系,包括:

15、根据两个服务器的第二连接关系,确定所述两个服务器的内部组件之间的跨服务器连接方式;

16、合并所述服务器的各个内部组件之间的内部连接方式以及两个服务器的内部组件之间的跨服务器连接方式,形成全局连接关系。

17、在一些可选的实施方式中,所述合并所述服务器的各个内部组件之间的内部连接方式以及两个服务器的内部组件之间的跨服务器连接方式,形成全局连接关系,包括:

18、将所述服务器的加速组件与所述服务器内相应的网络适配器进行绑定,组成虚拟节点;

19、确定所述服务器的各个虚拟节点之间的内部连接方式以及两个服务器的虚拟节点之间的跨服务器连接方式;

20、对多个所述服务器的各个虚拟节点之间的连接关系进行合并,形成全局连接关系。

21、在一些可选的实施方式中,所述确定所述服务器的各个虚拟节点之间的内部连接方式以及两个服务器的虚拟节点之间的跨服务器连接方式,包括:

22、对于属于同一服务器的第一虚拟节点和第二虚拟节点,将所述第一虚拟节点的加速组件与所述第二虚拟节点的加速组件之间的内部连接方式,作为所述第一虚拟节点与所述第二虚拟节点之间的内部连接方式;

23、对于属于不同服务器的第三虚拟节点和第四虚拟节点,将所述第三虚拟节点的网络适配器与所述第四虚拟节点的网络适配器之间的跨服务器连接方式,作为所述第三虚拟节点与所述第四虚拟节点之间的跨服务器连接方式。

24、在一些可选的实施方式中,所述根据两个服务器的第二连接关系,确定所述两个服务器的内部组件之间的跨服务器连接方式,包括:

25、根据两个服务器的第二连接关系,确定所述两个服务器的内部组件之间的跳数,并基于跳数与跨服务器连接关系之间的预设匹配关系,确定与所述跳数相对应的跨服务器连接方式。

26、在一些可选的实施方式中,所述根据内部组件之间的连接方式确定内部组件之间的距离,包括:

27、根据预先设置的连接方式与距离之间的对应关系,确定与内部组件之间的连接方式相对应的距离;

28、或者,根据内部组件之间的连接方式确定内部组件之间的时延和带宽,并确定与所述时延和所述带宽相对应内部组件之间的距离;其中,内部组件之间的距离与所述时延为正相关关系,与所述带宽为负相关关系。

29、在一些可选的实施方式中,所述方法还包括:

30、确定内部组件之间的通信优先级,根据所述通信优先级调整内部组件之间的距离;其中,在连接方式相同的情况下,所述通信优先级越高,所述内部组件之间的距离越小。

31、第二方面,本专利技术提供了一种数据通信装置,包括:

32、获取模块,用于获取服务器集群中各个服务器的第一连接关系和第二连接关系;所述第一连接关系包括所述服务器的各个内部组件之间的内部连接方式,所述第二连接关系包括所述服务器的网络适配器与所接入的服务器集群中网络设备之间的对应关系;其中,所述内部组件包括网络适配器和加速组件;

33、合并模块,用于将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系;所述全局连接关系包括多个所述服务器的各个内部组件之间的连接方式;

34、转换模块,用于根据内部组件之间的连接方式确定内部组件之间的距离,将所述全局连接关系转换为包括多个所述服务器的各个内部组件之间距离的全局距离关系;

35、规划模块,用于采用一定的路径规划算法,根据所述全局距离关系规划出遍历每个加速组件的最短通信路径;

36、控制模块,用于控制所述服务器集群中的各个服务器按照所述最短通信路径进行数据通信。

37、第三方面,本专利技术提供了一种服务器,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的数据通信方法。

38、第四方面,本专利技术提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的数据通信方法。

39、第五方面,本专利技术提供了一种计算机程序产品,包括计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施本文档来自技高网...

【技术保护点】

1.一种数据通信方法,其特征在于,应用于目标服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述服务器的第一连接关系通过以下方式生成:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系,包括:

5.根据权利要求4所述的方法,其特征在于,所述合并所述服务器的各个内部组件之间的内部连接方式以及两个服务器的内部组件之间的跨服务器连接方式,形成全局连接关系,包括:

6.根据权利要求5所述的方法,其特征在于,所述确定所述服务器的各个虚拟节点之间的内部连接方式以及两个服务器的虚拟节点之间的跨服务器连接方式,包括:

7.根据权利要求4所述的方法,其特征在于,所述根据两个服务器的第二连接关系,确定所述两个服务器的内部组件之间的跨服务器连接方式,包括:

8.根据权利要求1所述的方法,其特征在于,所述根据内部组件之间的连接方式确定内部组件之间的距离,包括:

9.根据权利要求1所述的方法,其特征在于,所述方法还包括:

10.一种数据通信装置,其特征在于,应用于目标服务器,所述装置包括:

11.一种服务器,其特征在于,包括:

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至9中任一项所述的数据通信方法。

13.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行权利要求1至9中任一项所述的数据通信方法。

...

【技术特征摘要】

1.一种数据通信方法,其特征在于,应用于目标服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述服务器的第一连接关系通过以下方式生成:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系,包括:

5.根据权利要求4所述的方法,其特征在于,所述合并所述服务器的各个内部组件之间的内部连接方式以及两个服务器的内部组件之间的跨服务器连接方式,形成全局连接关系,包括:

6.根据权利要求5所述的方法,其特征在于,所述确定所述服务器的各个虚拟节点之间的内部连接方式以及两个服务器的虚拟节点之间的跨服务器连接方式,包括:

7.根据权利要求4所述的...

【专利技术属性】
技术研发人员:郑上闽
申请(专利权)人:新华三工业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1