【技术实现步骤摘要】
本专利技术涉及服务器集群,具体涉及数据通信方法、装置、服务器及存储介质。
技术介绍
1、随着人工智能模型规模和训练数据越来越大,对模型进行训练的服务器集群也会越来越大。在每台服务器中,也会有多块计算加速组件参与训练,每个加速组件均可作为一个训练节点。其中,该加速组件具体可以为gpu(graphic processing unit,图形处理器)、tpu(tensor processing unit,张量处理器)等。
2、在大集群训练过程中,每个参与训练的节点之间要同步大量的通信,以进行参数同步。目前的训练过程难以合理利用多个服务器中的训练节点,通信效率较低。
技术实现思路
1、有鉴于此,本专利技术提供了一种数据通信方法、装置、服务器及存储介质,以解决现有训练过程通信效率较低的问题。
2、第一方面,本专利技术提供了一种数据通信方法,应用于目标服务器,包括:
3、获取服务器集群中各个服务器的第一连接关系和第二连接关系;所述第一连接关系包括所述服务器的各个内部组
...【技术保护点】
1.一种数据通信方法,其特征在于,应用于目标服务器,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述服务器的第一连接关系通过以下方式生成:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系,包括:
5.根据权利要求4所述的方法,其特征在于,所述合并所述服务器的各个内部组件之间的内部连接方式以及两个服务器的内部组件之间的跨服务器连接方式,形成全局连接关系,包括:
6.根据权利要求
...【技术特征摘要】
1.一种数据通信方法,其特征在于,应用于目标服务器,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述服务器的第一连接关系通过以下方式生成:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述将多个所述服务器的第一连接关系和第二连接关系合并为全局连接关系,包括:
5.根据权利要求4所述的方法,其特征在于,所述合并所述服务器的各个内部组件之间的内部连接方式以及两个服务器的内部组件之间的跨服务器连接方式,形成全局连接关系,包括:
6.根据权利要求5所述的方法,其特征在于,所述确定所述服务器的各个虚拟节点之间的内部连接方式以及两个服务器的虚拟节点之间的跨服务器连接方式,包括:
7.根据权利要求4所述的...
【专利技术属性】
技术研发人员:郑上闽,
申请(专利权)人:新华三工业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。