【技术实现步骤摘要】
一种分布式深度学习系统中的参数传输调度算法及系统
[0001]本专利技术涉及通信
,具体涉及一种分布式深度学习系统中的参数传输调度算法、一种基于参数传输调度算法的分布式深度学习系统。
技术介绍
[0002]在过去几年中,由于机器学习框架能够提供较高的开发灵活性以及丰富的数据可用性,深度学习取得了蓬勃的发展。随着深度学习模型的不断扩大,其训练复杂度已经远远超过了单台机器所能承受的计算成本,分布式训练框架应运而生,成为解决复杂模型训练问题的主要途径。在常用的数据并行训练模式中,将输入数据切分到多个worker节点中,每个节点使用相同的计算图对数据进行处理。每次训练迭代结束后,节点之间交换参数数据以汇总迭代结果,随后用于模型更新。这一过程会产生较高的通信开销,所以对于通信开销的微小改进也能显著缩短系统的训练时间。
[0003]现有的分布式机器学习系统中的通信优化技术主要有以下几种:
[0004]一是使用诸如千兆以太网或InfiniBand之类的高带宽网络处理庞大的流量;二是使用模型压缩技术,如梯度量化、稀疏参 ...
【技术保护点】
【技术特征摘要】
1.一种分布式深度学习系统中的参数传输调度算法,其特征在于,包括以下步骤:S1.将输入数据切分到多个worker节点中,其中worker节点为工作节点;S2.worker节点从参数服务器接收汇聚的梯度值,并根据DAG关系依次使用,其中DAG关系为参数函数recv和运行单元op之间的关系;S3.根据DAG关系可以得出不同的参数调度策略,寻找到参数传输的最优策略;S4.定义每一个op的属性S5.更新每一个op的属性,用于对DAG关系中的所有op的属性值进行赋值;S6.利用步骤S5中的属性值计算每一个recvop的优先级,其中recvop表示处于传输过程中的参数;S7.优先选择优先级较高的op执行。2.根据权利要求1所述的一种分布式深度学习系统中的参数传输调度算法,其特征在于,在步骤S4中,定义每一个op的属性:G表示为Worker节点的DAG关系;Time(op)表示为op的执行时间;C表示为设备上的可用通信频道;R表示为DAG关系中recvsops的集合;op.dep表示为一个op能够执行的依赖项;op.M表示为若该op为recv操作,则op.M为Time(op);对于其它op,op.M为该op所有依赖项的完成时间总和;recvop.P表示为完成该recvop所能激活的所有op的执行时间之和;recvop.M+表示为对于一个存在多个依赖项的op,recvop.M+指激活该op所花费的最小通信代价。3.根据权利要求2所述的一种分布式深度学习系统中的参数传输调度算法,其特征在于,在步骤S5中,每一个op的属性的更新方法包括以下步骤:S51.首先对每一个op的属性值M进行赋值,根据定义可得,op的M值等于所依赖的所有recvop的花费时间总和;S52.判断op是否为recvop,若是,对于每一个recvop,初始化op的P值与M+值,且P值为0、M+值为+∞;若否,则将该op所依赖的所有recvop作为集合D,判断集合D内的数量是否为1;S53.若步骤S52中的集合D内的数量为1,对D内的recvop的属性值P进行更新,新的P值为原有P值加上op的执行时间;若步骤S52中的集合D内的数量不为1,将D内的所有recvop的属性值M+赋值为min{r.M+,op.M},即原有M+值与op的M值中的较小值。4.根据权利要求2所述的一种分布式深度学习系统中的参数传输调度算法,其特征在于,在不考虑每个运行单元op的执行时...
【专利技术属性】
技术研发人员:倪伟,杨坤,张冠华,胡兴,宋梁,
申请(专利权)人:上海光华智创网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。