【技术实现步骤摘要】
分布式训练的梯度稀疏化方法、系统、设备及存储介质
[0001]本专利技术涉及神经网络模型训练
,特别涉及一种分布式训练的梯度稀疏化方法、系统、设备及存储介质。
技术介绍
[0002]人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
[0003]人工智能的核心为深度学习神经网络。训练出的深度学习神经模型越准确,在应用到图像识别领域时,图像识别效果越好。随着深度学习领域的发展,研究人员发现模型越大训练出来的效果越好,因此模型越来越大成为深度学习领域的一个显著特征。但是越大的模型对设备的要求越高,即需要单卡的算力更强,内存空间更大。当单卡运行不能满足模型的要求时,往往需要多卡甚至多台机器协调工作,共同完成训练工作。如何协调多卡/多机来完成大模型的训练,就要应用到大规模分布式训练技术。
[0004]在大规模分布式训练存在通信开销问题,基于稀疏梯度的训练方法可以通过压缩冗余梯度信息在不影响模型精度 ...
【技术保护点】
【技术特征摘要】
1.一种面向分布式训练的高效梯度稀疏化方法,其特征在于,包括:将以稠密格式存储的梯度划分为若干个子块,每个子块的大小为第一数值;在每个子块的块内取固定的前第二数值的个数的元素;使用两个数组分别存储提取的元素的下标及值;其中,第二数值的值为第一数值的值乘以预设的参数。2.如权利要求1所述的面向分布式训练的高效梯度稀疏化方法,其特征在于,还包括:在将梯度传递到下一节点之前,基于两个所述数组和预设的编码库,确定各个子块对应的编码;将所述编码传递至下一节点。3.如权利要求1所述的面向分布式训练的高效梯度稀疏化方法,其特征在于,所述第一数值通过如下步骤确定:基于梯度的数据参数信息、待训练模型的类型、梯度对应的工作在大型分布式模型训练中的位置编码和预设的第一数值确定库,确定所述第一数值。4.如权利要求1所述的面向分布式训练的高效梯度稀疏化方法,其特征在于,大型分布式模型训练的工作分配规则确定步骤如下:基于各个节点的第一参数信息、各个节点之间的通讯参数信息、训练样本的第二参数信息和待训练模型的模型信息,构建分析参数集;基于所述分析参数集和预设的工作分配库,确定工作分配数据集;解析所述工作分配数据集,确定各个节点的工作分配规则。5.如权利要求4所述的面向分布式训练的高效梯度稀疏化方法,其特征在于,还包括:基于所述第一数值和所述参数,对稀疏化效果进行预测性评价,并输出评价结果;其中,基于所述第一数值和所述参数,对稀疏化效果进行预测性评价,并输出评价结果,包括:基于所述分析参数集、所述第一数值和所述参数,构建预测参数集;将所述预测参数集与预测库中各个评价结果对应的评价参数集进行匹配;获取与所述预测参数集匹配的所述评价参数集对应的所述评价结果。6.如权利要求5所述的面向分布式训练的高效梯度稀疏化方法,其特征在于,所述预测库通过如下步骤构建:获取各个类型的待训练模型;获取多种大型分布式训练网络;获取多组训练数据;基于多组训练数据及各组训练数据对应的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。