【技术实现步骤摘要】
一种基于特征图编码的流水线模型并行训练内存优化方法
[0001]本专利技术涉及一种基于特征图编码的流水线模型并行训练内存优化方法,属于计算机
技术介绍
[0002]深度神经网络广泛应用于各种领域,取得了超越人类的预测效果。随着模型的精度等要求越来越高,模型参数规模和计算需求越来越大,训练模型成为一个计算十分密集和耗时的任务。研究人员经常使用分布式计算机集群加速模型训练过程。分布式深度学习并行训练致力于加速DNN模型训练过程,已被很多学者研究。其中,流水线并行训练研究越来越深入。流水线并行训练可以解决数据并行的通信瓶颈与模型并行的计算资源浪费问题。流水线并行训练系统中多个计算节点以流水线方式执行所有批次的训练任务,内存消耗较大。为了解决模型高内存占用问题,模型剪枝和量化等技术被提出用以压缩模型参数规模。然而,现有方法大多基于降低模型参数规模以减少模型内存占用量,但并不适用模型训练过程,无法解决模型训练中高内存占用问题。针对流水线并行训练中的高内存占用量问题,研究减少内存占用量的内存优化方法,具有重要意义。
专 ...
【技术保护点】
【技术特征摘要】
1.一种基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,包括如下步骤:(1)构建流水线DNN模型并行训练方案,采用异步参数更新方法,并发执行不同节点中不同批次的训练,记录各个训练批次在单位流水线执行时间内完成前向和后向传递过程;(2)待前向传递计算任务完成后,生成特征图。若是Relu
‑
Pooling或Relu
‑
Conv组合层生成的特征图,则对特征图进行编码;若不是Relu
‑
Pooling或Relu
‑
Conv组合层生成的特征图,则不进行编码操作;(3)判断是否将生成的特征图都进行了编码,以低内存占用格式存储,从而降低特征图存储所需内存占用量,是则完成了对于特征图的编码,否则返回步骤(2)继续迭代;(4)在后向传递过程计算时,对生成的特征图进行解码。若是Relu
‑
Pooling或Relu
‑
Conv组合层生成的特征图,则对特征图进行解码;若不是Relu
‑
Pooling或Relu
‑
Conv组合层生成的特征图,则不进行解码操作;(5)判断是否将所有生成的特征图编码在后向传递过程中都进行了相对应的解码操作,是则完成该内存优化方案,否则返回步骤(4)继续迭代;(6)按照上述内存优化方案将其部署到异构计算节点中,得到针对拟训练目标网络的流水线并行训练内存优化方案。2.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(1)中单位流水线执行时间主要指前向传递和后向传递计算时间之和。3.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(2)中对Relu
‑
Pooling组合层生成的特征图进行编码的具体流程如下:在Relu层使用1个比特位存储Relu输出特征图元素,若元素为正,则为1;若元素为负,则为0;在Pooling层存储输出特征图与输入特征图的最大值元素位置映射。4.根据权利要求1所述的基于特征图编码的流水线模型并行训练内存优化方法,其特征在于,所述步骤(2)中对Relu
‑
Conv组合层生成的特征图进行编码的具体流程如下:使用稀疏矩阵压缩方法CSR对稀疏特征图进行编码存储;特征图存储在一个n维矩阵中,这个n维矩阵被分解为2维矩阵,将所述2维矩阵转换为CSR格式;所述CSR采用三个一维数组分别记录2维矩阵中非零数值,对应列号以及行偏移;所述CSR不是三元组,而是整体的编码...
【专利技术属性】
技术研发人员:毛莺池,金衍,屠子健,聂华,黄建新,徐淑芳,王龙宝,
申请(专利权)人:中科可控信息产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。