一种数据同步方法、装置、设备及存储介质制造方法及图纸

技术编号:34475276 阅读:27 留言:0更新日期:2022-08-10 08:50
本申请涉及模型训练技术领域,公开了一种数据同步方法、装置、设备及存储介质,包括:在相同种类的加速设备之间构建一级物理拓扑,在不同种类的加速设备之间构建二级物理拓扑;二级物理拓扑中各加速设备通过缓存一致性协议连接;按照一级物理拓扑通过scatter_reduce通信方式对加速设备中的待同步数据进行第一处理,按照二级物理对加速设备中第一处理后的数据进行第二处理;按照二级物理拓扑通过all_gather通信方式对加速设备中第二处理后的数据进行第三处理,并按照一级物理拓扑对加速设备中的第三处理后的数据进行第四处理。能够实现基于多种异构加速设备进行深度学习数据并行,提高硬件资源利用率和数据通信效率。提高硬件资源利用率和数据通信效率。提高硬件资源利用率和数据通信效率。

【技术实现步骤摘要】
一种数据同步方法、装置、设备及存储介质


[0001]本专利技术涉及模型训练
,特别涉及一种数据同步方法、装置、设备及存储介质。

技术介绍

[0002]随着深度神经网络的广泛应用,其模型尺寸变得越来越大,这种增长使得高效的模型训练变得更加重要,分布式训练应运而生。目前的分布式模型训练方法有数据并行和模型并行两种。其中最常用且应用最广泛的是数据并行方法。数据并行方法将待训练的输入数据进行划分,每次训练迭代过程中在多块加速设备上同时训练多个batch数据。数据并行又分为同步数据并行和异步数据并行两种方法。其中同步数据并行方法,所有加速设备计算完batch数据梯度后,统一将多个梯度合在一起,更新共享模型参数。这种方法可以减少用于计算梯度的权重的陈旧性,使模型最终能够达到较高的收敛精度,具有较好的统计效率,因此应用广泛。在同步数据并行的分布式算法中,Allreduce集合通信算子发挥着重要作用,Allreduce是一个集合通信算子,它的目标是将不同计算节点中的数据整合之后再把结果分发给各个节点,最终使得各计算节点都拥有整合后的数据。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据同步方法,其特征在于,包括:在目标服务器的相同种类的加速设备之间构建与加速设备种类数量一致的环形结构的一级物理拓扑,并在所述目标服务器的不同种类的加速设备之间构建与相同种类的加速设备的数量一致的环形结构的二级物理拓扑;其中,所述目标服务器中设置有不同种类的支持缓存一致性协议的加速设备,不同种类的加速设备的数量相同且至少为两个,所述二级物理拓扑中各加速设备通过缓存一致性协议进行连接;按照所述一级物理拓扑通过scatter_reduce通信方式对相同种类的加速设备中与模型训练相关的待同步数据进行第一处理,并按照所述二级物理拓扑通过scatter_reduce通信方式对不同种类的加速设备中第一处理后的数据进行第二处理;按照所述二级物理拓扑通过all_gather通信方式对不同种类的加速设备中第二处理后的数据进行第三处理,并按照所述一级物理拓扑通过all_gather通信方式对相同种类的加速设备中的第三处理后的数据进行第四处理。2.根据权利要求1所述的数据同步方法,其特征在于,各所述一级物理拓扑对应的加速设备相互独立,在执行第一处理和第四处理时,不同所述一级物理拓扑对应的加速设备并发执行;各所述二级物理拓扑对应的加速设备相互独立,在执行第二处理和第三处理时,不同所述二级物理拓扑对应的加速设备并发执行。3.根据权利要求1所述的数据同步方法,其特征在于,还包括:当存在多个所述目标服务器,则在不同的所述目标服务器的相同种类的加速设备之间构建与每个所述目标服务器中相同种类的加速设备的数量一致的环形结构的三级物理拓扑;其中,每个所述三级物理拓扑中包含与所述目标服务器数量一致的加速设备且各加速设备位于不同的所述目标服务器;所述按照所述二级物理拓扑通过scatter_reduce通信方式对不同种类的加速设备中第一处理后的数据进行第二处理之后,还包括:按照所述三级物理拓扑对不同所述目标服务器中的加速设备中第二处理后的数据进行规约操作并将规约操作后的数据分别广播至各加速设备,以将广播后的数据确定为各加速设备中第二处理后的数据。4.根据权利要求3所述的数据同步方法,其特征在于,所述按照所述三级物理拓扑对不同所述目标服务器中的加速设备中第二处理后的数据进行规约操作并将规约操作后的数据分别广播至各加速设备,包括:利用可编程交换机接收不同所述目标服务器中的加速设备中第二处理后的数据并按照所述三级物理拓扑对接收到的数据进行规约操作,以及利用所述可编程交换机将规约操作后的数据分别广播至各加速设备;其中,每个所述目标服务器均与一个所述可编程交换机连接。5.根据权利要求3所述的数据同步方法,其特征在于,所述在目标服务器的相同种类的加速设备之间构建与加速设备种类数量一致的环形结构的一级物理拓扑,并在所述目标服务器的不同种类的加速设备之间构建与相同种类的加速设备的数量一致的环形结构的二级物理拓扑,包括:分别在每个...

【专利技术属性】
技术研发人员:曹芳郭振华王丽高开赵雅倩李仁刚
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1