分布式训练的通信方法、系统和相关设备技术方案

技术编号:38734904 阅读:27 留言:0更新日期:2023-09-08 23:22
本发明专利技术公开了一种分布式训练的通信方法、系统和相关设备,涉及分布式学习领域。分布式训练的通信方法,包括:中心节点生成下发数据包,其中,下发数据包包括中心节点更新后的模型的信息,并且下发数据包的分段路由头包括多个计算节点对应的段列表,其中的每个段列表包括相应的计算节点的地址以及训练指示;中心节点将下发数据包发送给下一跳设备。中心节点通过一次下发过程,即可使得多个计算节点获取到更新后的模型的信息。因此,本发明专利技术的实施例能够在分布式训练的过程中,降低对带宽的占用、节约资源,降低了分布式训练过程中的开销。降低了分布式训练过程中的开销。降低了分布式训练过程中的开销。

【技术实现步骤摘要】
分布式训练的通信方法、系统和相关设备


[0001]本专利技术涉及分布式学习领域,特别涉及一种分布式训练的通信方法、系统和相关设备。

技术介绍

[0002]联邦学习(Federated Learning,FL)可以在本地节点不共享数据的情况下,由多节点联合训练得到全局模型。在联邦学习过程中,首先由中心节点将初始化的模型下发给计算节点;然后,计算节点通过训练程序,在本地对模型进行更新;接下来,中心节点接收计算节点训练的本地模型,对其汇聚以产生新的全局模型;最后,中心节点下发新的全局模型,以令计算节点进行新一轮训练,直到模型收敛。

技术实现思路

[0003]专利技术人经过分析后发现,在联邦学习等分布式的训练过程中,往往会存在比较大的通信开销,尤其是对于非代理节点众多的系统,网络面临的问题更为严重。例如,中心节点同时向众多计算节点下发相同的全局模型,会造成不必要的带宽占用和资源浪费。
[0004]本专利技术实施例所要解决的一个技术问题是:如何降低分布式训练过程中的开销。
[0005]根据本专利技术一些实施例的第一个方面,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分布式训练的通信方法,包括:中心节点生成下发数据包,其中,所述下发数据包包括所述中心节点更新后的模型的信息,并且所述下发数据包的分段路由头包括多个计算节点对应的段列表,其中的每个段列表包括相应的计算节点的地址以及训练指示;所述中心节点将所述下发数据包发送给下一跳设备。2.根据权利要求1所述的通信方法,其中,对于所述多个计算节点对应的段列表中的每个段列表,所述段列表的定位字段包括相应的计算节点的地址,所述段列表的功能字段包括所述训练指示。3.根据权利要求1所述的通信方法,其中,所述下发数据包的载荷字段包括所述中心节点更新后的模型的信息。4.根据权利要求1所述的通信方法,其中,所述下发数据包的分段路由头还包括一个或多个转发节点对应的段列表,其中的每个段列表包括相应的转发节点的网络地址以及不做处理的指示。5.根据权利要求1所述的通信方法,其中,所述多个计算节点包括一个代理节点以及多个非代理节点,并且,所述代理节点对应的段列表位于所述多个计算节点对应的段列表中的首个位置。6.根据权利要求1所述的通信方法,其中,所述下发数据包为基于互联网协议第6版IPv6转发平面的段路由数据包。7.根据权利要求1~6中任一项所述的通信方法,还包括:所述中心节点接收一个或多个代理节点发送的上传数据包,其中,所述上传数据包包括中间模型的信息,所述中间模型是发送所述上传数据包的代理节点对所述代理节点的、训练后的模型以及来自非代理节点的、训练后的模型进行汇聚而生成的;所述中心节点汇聚所述一个或多个代理节点发送的中间模型,以生成更新后的模型。8.根据权利要求7所述的通信方法,其中,所述上传数据包的分段路由头包括中心节点对应的段列表,并且所述中心节点对应的段列表包括汇聚指示。9.根据权利要求8所述的通信方法,其中,所述中心节点对应的段列表的定位字段包括所述中心节点的地址、功能字段包括所述汇聚指示。10.根据权利要求7所述的通信方法,其中,所述中间模型的信息位于所述上传数据包的载荷字段。11.根据权利要求7所述的通信方法,其中,所述上传数据包为基于互联网协议第6版IPv6转发平面的段路由数据包。12.根据权利要求1~6中任一项所述的通信方法,其中,所述中心节点为联邦学习的中心节点,所述计算节点为联邦学习的分布式节点。13.一种分布式训练的通信方法,包括:计算节点接收来自中心节点的下发数据包,其中,所述下发数据包包括所述中心节点更新后的模型,并且所述下发数据包的分段路由头包括多个计算节点对应的段列表,其中的每个段列表包括相应的计算节点的地址以及训练指示;所述计算节点根据所述下发数据包对本地的模型进行更新和训练。14.根据权利要求13所述的通信方法,还包括:
所述计算节点确定所述计算节点对应的段列表的下一段;所述计算节点将所述下发数据包发送给所述下一段对应的设备。15.根据权利要求13所述...

【专利技术属性】
技术研发人员:卫敏吕航雷波
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1