分布式训练通信压缩方法、装置、分布式训练系统制造方法及图纸

技术编号:43745672 阅读:23 留言:0更新日期:2024-12-20 13:05
本发明专利技术提出一种分布式训练通信压缩方法、装置、分布式训练系统,该方法包含:将分布式集群中各节点的全局梯度信息进行分组;在每个分组内选择梯度绝对值最大的前K个梯度值,将其余未选中的梯度值置为0,生成稀疏梯度矩阵;在各节点之间共享该稀疏梯度矩阵。该方法可以有效地减少边缘设备训练集群中节点间的通信量,从而实现更高效的分布式协同训练,并且保持模型的精度。

【技术实现步骤摘要】

本专利技术属于属于边缘计算领域,具体涉及一种适用于边缘计算场景的分布式训练通信压缩方法、装置、分布式训练系统


技术介绍

1、当前的分布式深度神经网络训练大多基于云服务器集群环境,依靠充裕的计算资源和高速网络进行大规模模型训练。但是随着边缘计算的兴起,直接在边缘端利用海量分散数据进行就地智能处理的需求日益增长。将分布式训练部署到资源受限的边缘设备中面临巨大挑战。边缘设备的带宽、计算能力等硬件条件普遍较弱,而分布式训练又极为依赖节点间的高频通信。已有研究表明,通信开销占分布式训练总时间的比例可达80%以上。因此,现有云服务器环境的分布式训练方案并不适用于边缘端,急需针对边缘设备的通信优化方法。

2、因此,易于想到对分布式训练中的通信量进行压缩处理从而减少节点间的通信量进而加快整体训练速度。


技术实现思路

1、针对现有技术的不足,本专利技术提出一种适用于边缘计算场景的分布式训练通信压缩方法、装置、分布式训练系统,其可以在降低边缘设备通信量的同时,获得分布式加速效果,达到在边缘环境高效分布式训练的目的。本文档来自技高网...

【技术保护点】

1.一种分布式训练通信压缩方法,适用于边缘计算场景,其特征在于,包含:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,在各节点之间共享该稀疏梯度矩阵,包含如下步骤:

4.根据权利要求3所述的方法,其特征在于,在各节点之间共享该稀疏梯度矩阵,还包含如下步骤:

5.根据权利要求1所述的方法,其特征在于,还包含:

6.根据权利要求5所述的方法,其特征在于,

7.根据权利要求1所述的方法,其特征在于,还包含:

8.一种分布式训练通信压缩装置,其特征在于,包含:

...

【技术特征摘要】

1.一种分布式训练通信压缩方法,适用于边缘计算场景,其特征在于,包含:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求1所述的方法,其特征在于,在各节点之间共享该稀疏梯度矩阵,包含如下步骤:

4.根据权利要求3所述的方法,其特征在于,在各节点之间共享该稀疏梯度矩阵,还包含如下步骤:

5...

【专利技术属性】
技术研发人员:王一帆马浩浩彭晓晖
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1