基于网络级模拟的自动并行策略搜索方法、介质及设备技术

技术编号：37123259 阅读：21 留言：0更新日期：2023-04-01 05:19

本发明专利技术提供一种基于网络级模拟的自动并行策略搜索方法、介质及设备，所述方法包括：获取神经网络计算图，并基于所述神经网络计算图对初始网络模型进行拆分，获取多个节点子网络模型，形成小集群网络模型；获取各所述节点子网络模型的时间开销；基于各所述节点子网络模型的时间开销模拟大集群网络模型的时间开销；基于模拟的大集群网络模型的时间开销进行并行策略搜索，输出最优并行策略。本发明专利技术不仅支持模型并行与流水线并行场景下的模拟，可以覆盖到现有的全部并行训练场景，同时整网拆分的性能评测方案，提升了模拟的准确率与速度。提升了模拟的准确率与速度。提升了模拟的准确率与速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于网络级模拟的自动并行策略搜索方法、介质及设备

[0001]本专利技术涉及人工智能
，特别是涉及神经网络模型

技术介绍

[0002]随着深度学习的不断发展，神经网络模型正朝着更大参数量的方向优化。大规模预训练语言模型已经成为自然语言处理的新范式。诸如GPT
‑
3等拥有数千亿参数的语言模型在自然语言的理解和生成上表现出了强大的性能，它们已被证明在各种自然语言任务中取得了极佳的性能。但是大模型的训练难以在单卡内实现，因此分布式训练是大模型训练系统的核心，随着模型规模的扩大，各深度学习框架Pytorch、TensorFlow开始加入分布式训练的功能。
[0003]分布式训练面临训练效率低的问题。现有的分布式训练策略主要有数据并行训练、模型并行训练、流水线并行训练、优化器并行训练等模式。数据并行的方式在样本数据上实现训练规模的扩展，能够提升训练效率。除数据并行外，其他并行训练模式的目的将与模型训练的相关参数(模型参数、优化器参数)分割，使得单卡上能够完成一部分训练，从而实现分布式训练大模型的功能，但不能提升训练效率。因此将多种并行策略相结合，在保障集群训练能力的基础上，最大化训练效率是分布式训练的一个重要问题。
[0004]由于并行策略组合多，人工搜索耗时耗力，近年来有一些自动并行策略搜索方法的提出。但现有的自动并行策略搜索方案是基于经验模型的基础进行搜索和验证的，存在精度较低的问题。在真实大模型上进行性能实测在实践层面难度较大。需要一种精准的、轻量级的并行策略验证方案。<...

【技术保护点】

【技术特征摘要】
1.一种基于网络级模拟的自动并行策略搜索方法，其特征在于：所述方法包括：获取神经网络计算图，并基于所述神经网络计算图对初始网络模型进行拆分，获取多个节点子网络模型，形成小集群网络模型；获取各所述节点子网络模型的时间开销；基于各所述节点子网络模型的时间开销模拟大集群网络模型的时间开销；基于模拟的大集群网络模型的时间开销进行并行策略搜索，输出最优并行策略。2.根据权利要求1所述的基于网络级模拟的自动并行策略搜索方法，其特征在于：所述基于所述神经网络计算图对初始网络模型进行拆分包括模型并行模式的模型拆分方式，包括：将所述初始网络模型的每个神经网络层的权重拆分成多个部分，每个部分分配给一个设备对同一个输入进行计算，计算完成后通过通信将输出汇总成完整的输出。3.根据权利要求1或2所述的基于网络级模拟的自动并行策略搜索方法，其特征在于：所述基于所述神经网络计算图对初始网络模型进行拆分包括流水线并行模式的模型拆分方式，包括：将所述初始网络模型拆分为若干级联节点子网络模型，每台设备计算一个节点子网络模型，其中包含一或多个计算层，设备间通过接力的方式完成整网计算。4.根据权利要求1所述的基于网络级模拟的自动并行策略搜索方法，其特征在于：所述基于所述神经网络计算图对初始网络模型进行拆分包括：确定并行策略，并确定所述并行策略下的模型并行模式和流水线并行模式的的并行度；基于所述模型并行模式将所述初始网络模型中的算子进行层内切分得到适应模型并行的算子；基于所述流水线并行模式和各所述算子将所述初始网络...

【专利技术属性】
技术研发人员：冷静文，王雅凯，过敏意，陆冠东，陈润哲，
申请(专利权)人：上海期智研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人