当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于AllReduce架构的高效参数同步方法技术

技术编号:44930492 阅读:41 留言:0更新日期:2025-04-08 19:11
本发明专利技术公开了一种基于AllReduce架构的高效参数同步方法,该方法首先根据底层物理链路带宽对节点进行分组分解,使分解后的链路带宽与通信量相匹配,再根据分解后不同通信阶段的通信量对待通信数据进行分块,最后每个数据块在不同类型链路上以分组分解AllReduce的方式并行地进行参数同步。本发明专利技术用于在复杂网络环境下进行高效的参数同步,能克服带宽异构的影响,在多网卡场景下可以高效地并行,单网卡场景下也能利用空闲链路提高并行度,在同构和异构网络环境下都能取得优异的性能表现。

【技术实现步骤摘要】

本专利技术属于计算机分布式通信领域,尤其涉及一种基于allreduce架构的高效参数同步方法。


技术介绍

1、随着深度学习和大模型技术的发展,实践中使用的神经网络模型规模越来越庞大,在大部分场景下单个节点的内存已经无法容纳完整的神经网络模型,同时单个节点的算力不能够在合理时间内完成模型的训练或是推理,因此发展出了各种分布式并行训练技术从而实现大规模神经网络模型的高效训练与推理。分布式并行训练技术中基本的并行模式包含数据并行与模型并行,然而无论是哪一种并行方式,都需要频繁地在节点间进行通信从而同步参数,对于数据并行来说待同步参数为梯度或者模型参数,对于模型并行来说待同步参数为模型中间层的激活值等。频繁的节点间通信限制了模型训练的性能,进而限制了分布式训练系统的可扩展性,因此,设计高效的节点间参数同步方法十分重要。为了解决这一问题,mpi集合通信库中的allreduce算法被引入到该领域,allreduce是一类通过数据块切分与集体通信调度进行高效参数同步的算法,其中如ring allreduce等一些经典的算法已经集成到了流行的深度学习框架中。

本文档来自技高网...

【技术保护点】

1.一种基于AllReduce架构的高效参数同步方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的一种基于AllReduce架构的高效参数同步方法,其特征在于,所述根据GPU/NPU集群系统的底层物理拓扑对节点进行分组分解包括:将节点进行如下整数分解形式的分组:

3.根据权利要求2所述的一种基于AllReduce架构的高效参数同步方法,其特征在于,所述数据同步阶段的通信量具体为:

4.根据权利要求3所述的一种基于AllReduce架构的高效参数同步方法,其特征在于,所述使得分解后的链路带宽与数据同步阶段的通信量相匹配的分解方式包括:...

【技术特征摘要】

1.一种基于allreduce架构的高效参数同步方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述根据gpu/npu集群系统的底层物理拓扑对节点进行分组分解包括:将节点进行如下整数分解形式的分组:

3.根据权利要求2所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述数据同步阶段的通信量具体为:

4.根据权利要求3所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述使得分解后的链路带宽与数据同步阶段的通信量相匹配的分解方式包括:

5.根据权利要求3所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述使得分解后的链路带宽与数据同步阶段的通信量相匹配的分解方式包括:

6.根据权利要求1所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述将待同步数据进行切分具体为:令第一个数据块采用同步过程中各阶段数据通信量和链路带宽匹配的默认同步方式;第r个数据块的同步阶段i对应于默认同步方式的第(i+r-1)%k个阶段的链路,且第r个数据块的大小为其中bi表示为链路的带宽;m为待同步...

【专利技术属性】
技术研发人员:徐金明沈奕澎孟文超贺诗波朱泽晗张梓洋黄炎
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1