一种通信并行的分布式随机梯度下降的方法、系统及装置制造方法及图纸

技术编号：28146541 阅读：59 留言：0更新日期：2021-04-21 19:31

本发明专利技术公开了一种通信并行的分布式随机梯度下降的方法、系统及装置，该方法包括：读取训练数据；按批次将训练数据输入到本地模型进行前向传播；计算损失值；反向传播计算参数的本地梯度；对本地模型参数进行更新并发送到参数服务器；接收参数服务器聚合平均后返回的最终模型。该系统包括：计算节点和参数服务器。该装置包括存储器以及用于执行上述通信并行的分布式随机梯度下降的方法的处理器。通过使用本发明专利技术，既减少了通信开销，又能减少训练所需时间。本发明专利技术作为一种通信并行的分布式随机梯度下降的方法、系统及装置，可广泛应用于模型训练领域。训练领域。训练领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种通信并行的分布式随机梯度下降的方法、系统及装置

[0001]本专利技术涉及模型训练领域，尤其涉及一种通信并行的分布式随机梯度下降的方法、系统及装置。

技术介绍

[0002]近年来，随着大数据和高速计算资源的快速发展，深度学习在人工智能许多领域都取得了突破性的发展和广泛应用，比如图像识别、语音识别以及自然语言处理等等。为了对模型进行更新训练，深度学习的训练通常使用小批量随机梯度下降算法(mini
‑
batch SGD)。但是，随着数据集的规模越来越大以及神经网络的模型越来越复杂，模型训练时间也显著增加，成为深度学习发展的瓶颈。目前主要采用同步随机梯度下降算法和局部随机梯度下降算法进行深度学习的训练，在同步随机梯度下降算法中，每轮批次都需要进行梯度的通信，而且某些速度较慢的计算节点会影响到整体的训练速度，会产生木桶效应，率先训练完的节点只能停下来等待。由于分布式深度学习需要频繁地对梯度或参数等信息进行通信，当数据集越大、通信时间越多、计算集群规模越大时，通信开销会越来越大，容易成为分布式训练的性能瓶颈，严重...

【技术保护点】

【技术特征摘要】
1.一种通信并行的分布式随机梯度下降的方法，其特征在于，包括计算节点工作步骤：S1、读取本地的训练数据；S2、按批次将训练数据输入到本地模型进行前向传播，得到本地模型的实际输出；S3、根据实际输出和预设的期望输出得到损失值；S4、基于损失值对本地模型进行反向传播，逐层计算得到参数的本地梯度；S5、根据小批量随机梯度下降算法和本地梯度对本地模型参数进行更新，得到更新后的本地模型；S6、新建子线程与参数服务器进行通信并向参数服务器发送更新后的本地模型；S7、根据更新后的本地模型进行模型同步并返回步骤S2，直至迭代训练达到预设次数，接收参数服务器聚合平均后返回的最终模型，完成训练。2.根据权利要求1所述一种通信并行的分布式随机梯度下降的方法，其特征在于，还包括参数服务器工作步骤：发送初始模型副本；接收计算节点发送的本地模型并根据本地模型参数计算平均后的同步模型参数；将同步模型参数发送给计算节点。3.根据权利要求2所述一种通信并行的分布式随机梯度下降的方法，其特征在于，所述按批次将训练数据输入到本地模型进行前向传播还包括判断当前批次是否为第一次迭代训练，判断到当前批次为第一次迭代训练，接受参数服务器发送的初始模型副本并作为本地模型参数。4.根据权利要求3所述一种通信并行的分布式随机梯度下降的方法，其特征在于，所述根据小批量随机梯度下降算法和本地梯度对本地模型参数进行更新，得到更新后的本地模型这一步骤，其具体包括：判断到当前批次是第一次迭代训练，根据本地梯度和小批量随机梯度下降算法对本地模型参数进行更新，得到更新后的本地模型；判断到当前批次不是第一次迭代训练，基于预设的更新公式对本地模型参数进行更新，得到更新后的本地模型。5.根据权利要求4所述一种通信并行的分布式随机梯度下降的方法，...

【专利技术属性】
技术研发人员：卢宇彤，关文轩，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人