数据通信方法、装置、服务器及存储介质制造方法及图纸

技术编号:41201095 阅读:23 留言:0更新日期:2024-05-07 22:27
本发明专利技术涉及服务器集群技术领域,公开了数据通信方法、装置、服务器及存储介质,该方法包括:获取服务器集群中各个服务器的第一连接关系和第二连接关系;第一连接关系包括服务器的各个内部组件之间的内部连接方式,第二连接关系包括服务器的网络适配器与所接入的服务器集群中网络设备之间的对应关系;将多个服务器的第一连接关系和第二连接关系合并为全局连接关系;根据内部组件之间的连接方式确定内部组件之间的距离,将全局连接关系转换为全局距离关系,并规划出遍历每个加速组件的最短通信路径。本发明专利技术可以构建出全局的最短通信路径,基于该最短通信路径执行训练任务,可以提升服务器集群的通信效率。

【技术实现步骤摘要】

本专利技术涉及服务器集群,具体涉及数据通信方法、装置、服务器及存储介质


技术介绍

1、随着人工智能模型规模和训练数据越来越大,对模型进行训练的服务器集群也会越来越大。在每台服务器中,也会有多块计算加速组件参与训练,每个加速组件均可作为一个训练节点。其中,该加速组件具体可以为gpu(graphic processing unit,图形处理器)、tpu(tensor processing unit,张量处理器)等。

2、在大集群训练过程中,每个参与训练的节点之间要同步大量的通信,以进行参数同步。目前的训练过程难以合理利用多个服务器中的训练节点,通信效率较低。


技术实现思路

1、有鉴于此,本专利技术提供了一种数据通信方法、装置、服务器及存储介质,以解决现有训练过程通信效率较低的问题。

2、第一方面,本专利技术提供了一种数据通信方法,应用于目标服务器,包括:

3、获取服务器集群中各个服务器的第一连接关系和第二连接关系;所述第一连接关系包括所述服务器的各个内部组件之间的内部连接方式本文档来自技高网...

【技术保护点】

1.一种数据通信方法,其特征在于,应用于目标服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述服务器的第一连接关系通过以下方式生成:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系,包括:

5.根据权利要求4所述的方法,其特征在于,所述合并所述服务器的各个内部组件之间的内部连接方式以及两个服务器的内部组件之间的跨服务器连接方式,形成全局连接关系,包括:

6.根据权利要求5所述的方法,其特征...

【技术特征摘要】

1.一种数据通信方法,其特征在于,应用于目标服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述服务器的第一连接关系通过以下方式生成:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系,包括:

5.根据权利要求4所述的方法,其特征在于,所述合并所述服务器的各个内部组件之间的内部连接方式以及两个服务器的内部组件之间的跨服务器连接方式,形成全局连接关系,包括:

6.根据权利要求5所述的方法,其特征在于,所述确定所述服务器的各个虚拟节点之间的内部连接方式以及两个服务器的虚拟节点之间的跨服务器连接方式,包括:

7.根据权利要求4所述的...

【专利技术属性】
技术研发人员:郑上闽
申请(专利权)人:新华三工业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1