当前位置: 首页 > 专利查询>合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室专利>正文

一种异步流水线并行训练过程中的动态层迁移方法技术

技术编号：35894762 阅读：13 留言：0更新日期：2022-12-10 10:28

本发明专利技术涉及网络信息技术领域，公开了一种异步流水线并行训练过程中的动态层迁移方法，包括以下步骤：发送层迁移消息；准备层迁移相关资源；执行层迁移；结束层迁移和清理相关资源；执行层迁移时，迁出节点在每次前向传播执行前进行待迁移层的权重迁出操作，迁入节点在每次反向传播执行后进行待迁移层的权重迁入操作，使权重传输过程与计算过程重叠；可作为现有异步流水线并行训练框架的补充模块，能够在不中断当前训练进程的同时实现相邻节点间的模型结构调整和部分层的迁移操作，打破原有异步流水线并行框架只能使用固定模型划分结构进行训练的限制，给深度神经网络的训练优化提供了更灵活有效的方式。提供了更灵活有效的方式。提供了更灵活有效的方式。

全部详细技术资料下载

【技术实现步骤摘要】
一种异步流水线并行训练过程中的动态层迁移方法

[0001]本专利技术涉及网络信息
，具体涉及一种异步流水线并行训练过程中的动态层迁移方法。

技术介绍

[0002]随着人工智能和大数据技术的发展，深度学习所使用的神经网络规模越来越大，部分高准确度的深度神经网络的层数甚至达到1000层，参数规模超过1000亿。超大规模的深度神经网络需要分布式集群共同协作才能完成训练。一种训练方式是将完整的模型拆分成若干个串行依赖的块，一个块包含模型中若干串行执行的层，每个计算节点（stage）负责训练一个块，并使用流水线的方法协调整个集群训练整个模型，这种方式通常被称为模型并行或流水线并行。
[0003]PipeDream是一种常用的异步流水线并行框架，支持流水线并行训练方式，并且GPU利用率很高；但PipeDream只能在集群进行模型训练之前对待训练的模型进行块的静态划分，并在整个训练完成之前都保持该划分结构，不能在模型训练的过程中动态地调整划分结构，即不能动态地将某个节点的部分层迁移到另一个节点上训练。
[0004]深度神经网络的训练往往依托于数据中心的分布式计算集群，实际的集群中可能存在资源异质性问题（如不同的节点上GPU型号和算力有差异）、网络波动问题（如网络故障）以及多任务抢占问题（如同一节点上有多个任务同时在运行）等，就会降低训练性能。因此需要在训练过程中根据资源、任务、网络状态等情况动态地调整不同节点上的模型占比（即前文所述的模型划分结构），在不同节点之间迁移部分层，以平衡各节点上的计算负载和计算时间...

【技术保护点】

【技术特征摘要】
1.一种异步流水线并行训练过程中的动态层迁移方法，其特征在于，所述动态层迁移方法应用于分布式机器学习场景下，具体包括：步骤一、发送层迁移消息：迁出节点向迁入节点发送层迁移消息，并附带迁出节点当前的批数据序号k和待迁移层的描述信息；待迁移层的描述信息包括待迁移层的数量、待迁移层的标签；步骤二、准备层迁移相关资源：将迁出节点中原有的模型结构划分成两部分，一部分为保留在迁出节点的层，另一部分为需要迁移至迁入节点的层，即待迁移层；根据待迁移层的描述信息在迁入节点内初始化待迁移层，并将待迁移层加入到迁入节点原有的模型结构中；在迁出节点和迁入节点之间对待迁移层的中间变量和权重建立额外的迁移通信连接；每个迁移通信连接均为各自独立的线程；步骤三、执行层迁移：迁出节点在每次前向传播执行前进行待迁移层的权重迁出操作，迁入节点在每次反向传播执行后进行待迁移层的权重迁入操作，使权重传输过程与计算过程重叠；步骤四、结束层迁移和清理相关资源：在完成迁出节点中所有待迁移层的权重迁出操作后，删除迁出节点中已迁移层占用的资源；删除迁出节点与迁入节点原有的节点间通信连接和所述的迁移通信连接：在迁出节点与迁入节点建立新的节点间通信连接；其中，待迁移层从迁出节点迁移至迁入节点后，被称为已迁移层。2.根据权利要求1所述的异步流水线并行训练过程中的动态层迁移方法，其特征在于：步骤一中，若迁出节点在迁入节点之前，即迁出节点的序号小于迁入节点的序号，则迁出节点会在最近一次的前向传播执行前发送层迁移消息...

【专利技术属性】
技术研发人员：何华森，王清河，凌志，沙沫，姜晓枫，谭小彬，杨坚，
申请(专利权)人：合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人