一种大型预训练模型的训练方法和系统技术方案

技术编号：38842098 阅读：11 留言：0更新日期：2023-09-17 09:55

本申请实施例公开了一种大型预训练模型的训练方法和系统，所述方法包括：将输入数据分别加载到受限处理单元和通用处理单元的存储器中；所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算，将计算结果存储；将标签加载到所述通用处理单元的存储器中并计算损失；根据计算的损失执行反向计算，计算梯度并更新所述参数增量；重复执行上述步骤，直至指标达到设定目标值或训练步数达到设定步数阈值，训练结束。可以使用计算能力受限的处理单元与通用处理单元共同实现大模型的训练，从而降低了训练过程对通用处理单元的需求，使得关键的大模型训练技术可以在更多的场景被采用，降低了功耗、时延和成本。时延和成本。时延和成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种大型预训练模型的训练方法和系统

[0001]本申请实施例涉及深度学习
，具体涉及一种大型预训练模型的训练方法和系统。

技术介绍

[0002]大模型（也称大型预训练模型）的训练是一项复杂的技术，常用的策略包括预训练、微调等。预训练是指使用大规模数据集对模型进行无监督学习，以提高模型的泛化能力和训练效果。微调是指在预训练的基础上，使用较小的数据集对模型进行有监督学习，以适应具体需求和专门领域。但不论采用何种训练方法，目前大模型的训练都使用通用图形处理器（GPGPU）等通用处理单元执行运算。
[0003]AI 推理芯片是一种专门用于执行模型推理运算的芯片。AI 推理芯片通常是基于通用图形处理器（GPGPU）或专用集成电路（ASIC）的架构设计，并且具有高度优化的算法和软件支持，以实现高效的推理能力。
[0004]但是，由于芯片优化方向、计算能力等原因，AI 推理芯片无法运行或无法高效运行一些仅在模型训练时才需要的计算，因此不能或不适合在模型训练过程中直接使用。

技术实现思路

[0005]为此，本申请实施例提供一种大型预训练模型的训练方法和系统，可以使用计算能力受限的处理单元与通用处理单元共同实现大模型的训练，从而降低了训练过程对通用处理单元的需求，使得关键的大模型计算能力受限的处理技术可以在更多的场景被采用，降低了功耗、时延和成本。
[0006]为了实现上述目的，本申请实施例提供如下技术方案：根据本申请实施例的第一方面，提供了一种大型预训练模型的训练方法，所述方法包括：将输...

【技术保护点】

【技术特征摘要】
1.一种大型预训练模型的训练方法，其特征在于，所述方法包括：将输入数据分别加载到受限处理单元和通用处理单元的存储器中；所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算，将计算结果存储；所述通用处理单元将标签加载到所述通用处理单元的存储器中并计算损失；所述通用处理单元根据计算的损失执行反向计算，计算梯度并更新所述参数增量；重复执行上述步骤，直至指标达到设定目标值或训练步数达到设定步数阈值，训练结束。2.如权利要求1所述的方法，其特征在于，所述受限处理单元和所述通用处理单元根据预训练参数和参数增量执行前向计算，包括：针对前向计算的每一步，若所述受限处理单元的存储器中存在预训练参数，则所述受限处理单元根据所述预训练参数得到这一步前向计算的计算结果；若所述通用处理单元存在所述预训练参数的参数增量，则所述通用处理单元根据所述预训练参数的参数增量得到这一步前向计算的计算结果；将这一步前向计算的计算结果求和，将求和的结果分别发送给所述受限处理单元和所述通用处理单元。3.如权利要求1所述的方法，其特征在于，所述方法还包括：根据所述梯度将初始化后的预训练参数Φ0更新为 Φ0+
∆
Φ，如下式所示：；其中， Φ 为大型预训练模型的所有参数，Z 为训练数据集，x、y 分别为输入数据和标签；t 为 y 序列中的序号，y
t 表示序列的第 t 个元素，y
<t 表示序列的前 t
‑
1 个元素，|y| 表示序列的长度。4.如权利要求1所述的方法，其特征在于，将输入数据分别加载到受限处理单元和通用处理单元的存储器中之后，所述方法还包括：从系统的存储器中读取大型预训练模型的预训练参数，加载到所述受限处理单元的存储器中；构造参数增量，加载到所述通用处理单元的存储器中。5.如权利要求1所述的方法，其特征在于，所述方法还包括：训练结束后，将最终的参数增量从所述通用处理单元的存储器保存到系统的存储器中，丢弃所述受限处理单元的存储器中的预训练参数。6.一种...

【专利技术属性】
技术研发人员：王明亮，肖宇轩，
申请(专利权)人：北京向量栈科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人