【技术实现步骤摘要】
本专利技术属于计算机分布式通信领域,尤其涉及一种基于allreduce架构的高效参数同步方法。
技术介绍
1、随着深度学习和大模型技术的发展,实践中使用的神经网络模型规模越来越庞大,在大部分场景下单个节点的内存已经无法容纳完整的神经网络模型,同时单个节点的算力不能够在合理时间内完成模型的训练或是推理,因此发展出了各种分布式并行训练技术从而实现大规模神经网络模型的高效训练与推理。分布式并行训练技术中基本的并行模式包含数据并行与模型并行,然而无论是哪一种并行方式,都需要频繁地在节点间进行通信从而同步参数,对于数据并行来说待同步参数为梯度或者模型参数,对于模型并行来说待同步参数为模型中间层的激活值等。频繁的节点间通信限制了模型训练的性能,进而限制了分布式训练系统的可扩展性,因此,设计高效的节点间参数同步方法十分重要。为了解决这一问题,mpi集合通信库中的allreduce算法被引入到该领域,allreduce是一类通过数据块切分与集体通信调度进行高效参数同步的算法,其中如ring allreduce等一些经典的算法已经集成到了流行的深度学习框
本文档来自技高网...
【技术保护点】
1.一种基于AllReduce架构的高效参数同步方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的一种基于AllReduce架构的高效参数同步方法,其特征在于,所述根据GPU/NPU集群系统的底层物理拓扑对节点进行分组分解包括:将节点进行如下整数分解形式的分组:
3.根据权利要求2所述的一种基于AllReduce架构的高效参数同步方法,其特征在于,所述数据同步阶段的通信量具体为:
4.根据权利要求3所述的一种基于AllReduce架构的高效参数同步方法,其特征在于,所述使得分解后的链路带宽与数据同步阶段的通信量相匹配的
...【技术特征摘要】
1.一种基于allreduce架构的高效参数同步方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述根据gpu/npu集群系统的底层物理拓扑对节点进行分组分解包括:将节点进行如下整数分解形式的分组:
3.根据权利要求2所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述数据同步阶段的通信量具体为:
4.根据权利要求3所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述使得分解后的链路带宽与数据同步阶段的通信量相匹配的分解方式包括:
5.根据权利要求3所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述使得分解后的链路带宽与数据同步阶段的通信量相匹配的分解方式包括:
6.根据权利要求1所述的一种基于allreduce架构的高效参数同步方法,其特征在于,所述将待同步数据进行切分具体为:令第一个数据块采用同步过程中各阶段数据通信量和链路带宽匹配的默认同步方式;第r个数据块的同步阶段i对应于默认同步方式的第(i+r-1)%k个阶段的链路,且第r个数据块的大小为其中bi表示为链路的带宽;m为待同步...
【专利技术属性】
技术研发人员:徐金明,沈奕澎,孟文超,贺诗波,朱泽晗,张梓洋,黄炎,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。