一种分布式深度学习的参数更新优化系统技术方案

技术编号：19489043 阅读：36 留言：0更新日期：2018-11-17 12:01

本发明专利技术涉及一种分布式深度学习的参数更新优化系统；在参数更新部分对参数进行了版本控制，在参数服务器端和工作节点上都增加了参数的版本号，当前的工作节点拉取最新版本的参数进行训练跟梯度计算后，参数服务器会根据两个版本号的差值作为此工作节点此次迭代的梯度陈旧度σi,l，然后将梯度乘以

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式深度学习的参数更新优化系统
本专利技术涉及深度学习的
，特别涉及一种分布式深度学习的参数更新优化系统。
技术介绍
目前，深度学习成为了机器学习领域的一个新兴研究方向，深度学习是一种高效的特征提取方法，能够提取数据中更加抽象的特征，对数据具有更强的模型泛化能力，由于数据集和神经网络模型层数的增加，开始抛弃单节点这种耗时和受内存限制的训练方法，开始使用大规模的分布式集群进行训练，从而诞生了一种参数服务器的角色。参数服务器的出现将根据梯度更新参数的部分由工作节点剥离到参数服务器上进行，有效的提高了训练速度，解决了工作节点参数存储空间不够等问题。根据并行策略的不同，有两种分布式训练的方法，一种是数据并行，一种为模型并行。在数据并行策略下，训练集会被进行划分，不同的节点含有同一个模型的多个副本，仅对分配到的部分数据集进行训练。利用参数服务器实现的数据并行有同步和异步之分，如果采用同步通信模式，所有的工作节点在同时训练完一个批次的数据后，需要对梯度进行聚合平均，并更新训练参数，然后拉取新的参数进行下一个批次的训练，这种通信模式会因为其中某些性能较差的节点影响整体的训练进度，产生木桶效应。然而另外一种异步通信模式的提出克服了这种缺点，它允许工作节点每完成一个批次的训练，就立即将梯度发给参数服务器进行参数更新，不需要等待其余的工作节点训练完，大大提高了训练的效率。不过这种异步更新的模式没有考虑到集群环境下机器性能的差异问题，不同工作节点计算和传递梯度的时间不一致，梯度所拥有的价值也不一样。在一个工作节点拉取参数进行计算的过程中，参数服务器上的参数可能已经收...

【技术保护点】
1.一种分布式深度学习的参数更新优化系统，包括一个或多个参数服务器节点和多个工作节点，其特征在于：该系统的国内工作过程包括以下步骤：S1.工作节点根据用户规定好的模型结构，随机初始化各层参数，并记录当前参数版本为θl＝0，l的取值范围为(0，λ)，参数服务器设置参数版本号为θ0＝0，并根据用户定义将强制同步间隔值T初始化为一常量值；S2.每个工作节点读入本地的一批训练数据至内存；S3.工作节点根据读入的样本数据及对应的期望输出，进行前向传播，最后得到模型的输出值；其中，各工作节点互不影响，独立计算；S4.工作节点根据前向传播的模型输出与样本数据的期望输出的误差得到损失函数值Loss，根据损失函数值Loss进行反向传播，逐层计算参数梯度ΔWl；S5.工作节点将计算完的梯度ΔWl以及当前使用的参数版本号θl发回至参数服务器，等待参数服务器对参数进行更新。参数服务器每收到一个工作节点传来的梯度就将参数版本号加1，即θ0＝θ0+1；S6.参数服务器对θ0进行判断，如果θ0％T不为0，参数更新使用梯度加权方式，用以下公式(1.1)定义此工作节点发来的梯度的陈旧度：σi,l＝θl‑θ0 (1...

【技术特征摘要】
1.一种分布式深度学习的参数更新优化系统，包括一个或多个参数服务器节点和多个工作节点，其特征在于：该系统的国内工作过程包括以下步骤：S1.工作节点根据用户规定好的模型结构，随机初始化各层参数，并记录当前参数版本为θl＝0，l的取值范围为(0，λ)，参数服务器设置参数版本号为θ0＝0，并根据用户定义将强制同步间隔值T初始化为一常量值；S2.每个工作节点读入本地的一批训练数据至内存；S3.工作节点根据读入的样本数据及对应的期望输出，进行前向传播，最后得到模型的输出值；其中，各工作节点互不影响，独立计算；S4.工作节点根据前向传播的模型输出与样本数据的期望输出的误差得到损失函数值Loss，根据损失函数值Loss进行反向传播，逐层计算参数梯度ΔWl；S5.工作节点将计算完的梯度ΔWl以及当前使用的参数版本号θl发回至参数服务器，等待参数服务器对参数进行更新。参数服务器每收到一个工作节点传来的梯度就将参数版本号加1，即θ0＝θ0+1；S6.参数服务器对θ0进行判断，如果θ0％T不为0，参数更新使用梯度加权方式，用以下公式(1.1)定义此工作节点发来的梯度的陈旧度：σi,l＝θl-θ0(1.1)然后利用公式(1.2)更新全局参数如果(θ0％T)＝＝0，则表明当前所有工作节点的已经一共进行了T次异步更新操作，需要进行强制同步，参数更新办法利用公式(1.3)进行聚合平均。其中，各参数含义如下S7.参数服务器更新完全局参数后，工作节点从参数服务器拉取最新的参数以及版本号，并更新本地的参数版本号θl＝θ0。参数服务器等待接收下一个梯度。2.根据权利要求1所述的分布式深度学习的参数更...

【专利技术属性】
技术研发人员：叶彦，李欣鑫，吴维刚，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人