神经网络分布式训练系统、方法、装置、计算单元及介质制造方法及图纸

技术编号：34570598 阅读：30 留言：0更新日期：2022-08-17 13:01

本发明专利技术公开了神经网络分布式训练系统、方法、装置、计算单元及介质。该系统包括：神经网络芯片和主机；神经网络芯片包括多个计算单元，各计算单元上分别设置有内存屏障；各计算单元，用于根据数据分片进行前向传播计算，得到单机代价函数；根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机；主机，用于对接收到的全部计算单元的梯度分区进行全局梯度规约，并将得到的全局梯度反馈至各计算单元；各计算单元，还用于根据接收的全局梯度，更新单机计算参数。通过本发明专利技术的技术方案，能够减小神经网络芯片和主机之间的梯度状态同步时间，提高了分布式训练的效率。提高了分布式训练的效率。提高了分布式训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络分布式训练系统、方法、装置、计算单元及介质

[0001]本专利技术涉及分布式训练
，尤其涉及神经网络分布式训练系统、方法、装置、计算单元及介质。

技术介绍

[0002]由于神经网络的分布式训练使得训练复杂的神经网络，以及利用大规模训练数据集训练神经网络成为可能，因此，神经网络分布式训练在神经网络领域十分重要。
[0003]然而，由于现有的神经网络分布式训练在神经网络芯片和主机之间会存在梯度状态同步时间，该梯度状态同步时间的存在会影响分布式训练的整体性能。因此，如何减小神经网络芯片和主机之间的梯度状态同步时间，提高分布式训练的效率，是目前亟待解决的问题。

技术实现思路

[0004]本专利技术提供了一种神经网络分布式训练系统、方法、装置、计算单元及介质，可以减小神经网络芯片和主机之间的梯度状态同步时间，提高分布式训练的效率。
[0005]根据本专利技术的一方面，提供了一种神经网络分布式训练系统，包括：神经网络芯片和主机；神经网络芯片包括多个计算单元，各计算单元上分别设置有内存屏障；<br/>[0006]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络分布式训练系统，其特征在于，包括：神经网络芯片和主机；神经网络芯片包括多个计算单元，各计算单元上分别设置有内存屏障；各计算单元，用于根据数据分片进行前向传播计算，得到单机代价函数；根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机；主机，用于对接收到的全部计算单元的梯度分区进行全局梯度规约，得到全局梯度，并将全局梯度反馈至各计算单元；各计算单元，还用于根据接收的全局梯度，对单机计算参数进行更新；其中，内存屏障释放时机用于控制各计算单元在全部计算单元均完成梯度分区的计算后，向主机发送梯度分区。2.根据权利要求1所述的系统，其特征在于，神经网络分布式训练系统为数据并行模式。3.根据权利要求1所述的系统，其特征在于，各计算单元在每轮训练计算得到梯度分区之前，预先将本计算单元的梯度状态设置为未处理状态；各计算单元在每轮训练计算得到梯度分区之后，将本计算单元的梯度状态修改为完成状态。4.根据权利要求1所述的系统，其特征在于，预先获取神经网络芯片中各计算单元的个数；其中，神经网络芯片中各计算单元的个数用于设定目标计数器。5.一种神经网络分布式训练方法，由如权利要求1
‑
4任一项所述的神经网络分布式训练系统中的计算单元执行，其特征在于，包括：根据数据分片进行前向传播计算，得到单机代价函数；根据单机代价函数计算与单机代价函数匹配的梯度分区；在满足内存屏障释放时机时，将梯度分区发送至主机；接收主机反馈的全局梯度，根据全局梯度对单机计算参数进行更新；其中，内存屏障释放时机用于控制各计算单元在全部计算单元均完成梯度分区的计算后...

【专利技术属性】
技术研发人员：吴长平，李华毅，张亚林，
申请(专利权)人：上海燧原科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人