一种大型预训练模型的训练方法和系统技术方案

技术编号:38842098 阅读:11 留言:0更新日期:2023-09-17 09:55
本申请实施例公开了一种大型预训练模型的训练方法和系统,所述方法包括:将输入数据分别加载到受限处理单元和通用处理单元的存储器中;所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算,将计算结果存储;将标签加载到所述通用处理单元的存储器中并计算损失;根据计算的损失执行反向计算,计算梯度并更新所述参数增量;重复执行上述步骤,直至指标达到设定目标值或训练步数达到设定步数阈值,训练结束。可以使用计算能力受限的处理单元与通用处理单元共同实现大模型的训练,从而降低了训练过程对通用处理单元的需求,使得关键的大模型训练技术可以在更多的场景被采用,降低了功耗、时延和成本。时延和成本。时延和成本。

【技术实现步骤摘要】
一种大型预训练模型的训练方法和系统


[0001]本申请实施例涉及深度学习
,具体涉及一种大型预训练模型的训练方法和系统。

技术介绍

[0002]大模型(也称大型预训练模型)的训练是一项复杂的技术,常用的策略包括预训练、微调等。预训练是指使用大规模数据集对模型进行无监督学习,以提高模型的泛化能力和训练效果。微调是指在预训练的基础上,使用较小的数据集对模型进行有监督学习,以适应具体需求和专门领域。但不论采用何种训练方法,目前大模型的训练都使用通用图形处理器(GPGPU)等通用处理单元执行运算。
[0003]AI 推理芯片是一种专门用于执行模型推理运算的芯片。AI 推理芯片通常是基于通用图形处理器(GPGPU)或专用集成电路(ASIC)的架构设计,并且具有高度优化的算法和软件支持,以实现高效的推理能力。
[0004]但是,由于芯片优化方向、计算能力等原因,AI 推理芯片无法运行或无法高效运行一些仅在模型训练时才需要的计算,因此不能或不适合在模型训练过程中直接使用。

技术实现思路

[0005]为此,本申请实施例提供一种大型预训练模型的训练方法和系统,可以使用计算能力受限的处理单元与通用处理单元共同实现大模型的训练,从而降低了训练过程对通用处理单元的需求,使得关键的大模型计算能力受限的处理技术可以在更多的场景被采用,降低了功耗、时延和成本。
[0006]为了实现上述目的,本申请实施例提供如下技术方案:根据本申请实施例的第一方面,提供了一种大型预训练模型的训练方法,所述方法包括:将输入数据分别加载到受限处理单元和通用处理单元的存储器中;所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算,将计算结果存储;所述通用处理单元将标签加载到所述通用处理单元的存储器中并计算损失;所述通用处理单元根据计算的损失执行反向计算,计算梯度并更新所述参数增量;重复执行上述步骤,直至指标达到设定目标值或训练步数达到设定步数阈值,训练结束。
[0007]可选地,所述受限处理单元和所述通用处理单元根据预训练参数和参数增量执行前向计算,包括:针对前向计算的每一步,若所述受限处理单元的存储器中存在预训练参数,则所述受限处理单元根据所述预训练参数得到这一步前向计算的计算结果;若所述通用处理单
元存在所述预训练参数的参数增量,则所述通用处理单元根据所述预训练参数的参数增量得到这一步前向计算的计算结果;将这一步前向计算的计算结果求和,将求和的结果分别发送给所述受限处理单元和所述通用处理单元。
[0008]可选地,所述方法还包括:根据所述梯度反方向将初始化后的预训练参数Φ0更新为 Φ0+

Φ,如下式所示:
[0009]其中, Φ 为大型预训练模型的所有参数,Z 为训练数据集,x、y 分别为输入数据和标签;t 为 y 序列中的序号,y
t 表示序列的第 t 个元素,y
<t 表示序列的前 t

1 个元素,|y| 表示序列的长度。
[0010]可选地,将输入数据分别加载到受限处理单元和通用处理单元的存储器中之后,所述方法还包括:从系统的存储器中读取大型预训练模型的预训练参数,加载到所述受限处理单元的存储器中;构造参数增量,加载到所述通用处理单元的存储器中。
[0011]可选地,所述方法还包括:训练结束后,将最终的参数增量从所述通用处理单元的存储器保存到系统的存储器中,丢弃所述受限处理单元的存储器中的预训练参数。
[0012]根据本申请实施例的第二方面,提供了一种大型预训练模型的训练系统,所述系统包括:输入模块,用于将输入数据分别加载到受限处理单元和通用处理单元的存储器中;前向计算模块,用于所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算,将计算结果存储;损失计算模块,用于所述通用处理单元将标签加载到所述通用处理单元的存储器中并计算损失;反向计算模块,用于所述通用处理单元根据计算的损失执行反向计算,计算梯度并更新所述参数增量;训练模块,用于重复执行上述步骤,直至指标达到设定目标值或训练步数达到设定步数阈值,训练结束。
[0013]可选地,所述前向计算模块,具体用于:所述通用处理单元根据所述参数增量 计算出参数增量的参数增量;针对前向计算的每一步,若所述受限处理单元的存储器中存在预训练参数,则所述受限处理单元根据所述预训练参数得到这一步前向计算的计算结果;若所述通用处理单元存在所述预训练参数的参数增量,则所述通用处理单元根据所述预训练参数的参数增量得到这一步前向计算的计算结果;将这一步前向计算的计算结果求和,将求和的结果分别发送给所述受限处理单元和所述通用处理单元。
[0014]可选地,所述训练模块,还用于:
根据所述梯度反方向将初始化后的预训练参数Φ0更新为 Φ0+

Φ,如下式所示:
[0015]其中, Φ 为大型预训练模型的所有参数,Z 为训练数据集,x、y 分别为输入数据和标签;t 为 y 序列中的序号,y
t 表示序列的第 t 个元素,y<t 表示序列的前 t

1 个元素,|y| 表示序列的长度。
[0016]根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。
[0017]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。
[0018]综上所述,本申请实施例提供了一种大型预训练模型的训练方法和系统,通过将输入数据分别加载到受限处理单元和通用处理单元的存储器中;所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算,将计算结果存储;将标签加载到所述通用处理单元的存储器中并计算损失;根据计算的损失执行反向计算,计算梯度并更新所述参数增量;重复执行上述步骤,直至指标达到设定目标值或训练步数达到设定步数阈值,训练结束。可以使用计算能力受限的处理单元与通用处理单元共同实现大模型的训练,从而降低了训练过程对通用处理单元的需求,使得关键的大模型训练技术可以在更多的场景被采用,降低了功耗、时延和成本。可以使用计算能力受限的处理单元与通用处理单元共同实现大模型的训练,从而降低了训练过程对通用处理单元的需求,使得关键的大模型计算能力受限的处理技术可以在更多的场景被采用,降低了功耗、时延和成本。
附图说明
[0019]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
[0020]本说明书所绘示的结构、比例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大型预训练模型的训练方法,其特征在于,所述方法包括:将输入数据分别加载到受限处理单元和通用处理单元的存储器中;所述受限处理单元和所述通用处理单元分别根据预训练参数和参数增量执行前向计算,将计算结果存储;所述通用处理单元将标签加载到所述通用处理单元的存储器中并计算损失;所述通用处理单元根据计算的损失执行反向计算,计算梯度并更新所述参数增量;重复执行上述步骤,直至指标达到设定目标值或训练步数达到设定步数阈值,训练结束。2.如权利要求1所述的方法,其特征在于,所述受限处理单元和所述通用处理单元根据预训练参数和参数增量执行前向计算,包括:针对前向计算的每一步,若所述受限处理单元的存储器中存在预训练参数,则所述受限处理单元根据所述预训练参数得到这一步前向计算的计算结果;若所述通用处理单元存在所述预训练参数的参数增量,则所述通用处理单元根据所述预训练参数的参数增量得到这一步前向计算的计算结果;将这一步前向计算的计算结果求和,将求和的结果分别发送给所述受限处理单元和所述通用处理单元。3.如权利要求1所述的方法,其特征在于,所述方法还包括:根据所述梯度将初始化后的预训练参数Φ0更新为 Φ0+

Φ,如下式所示:;其中, Φ 为大型预训练模型的所有参数,Z 为训练数据集,x、y 分别为输入数据和标签;t 为 y 序列中的序号,y
t 表示序列的第 t 个元素,y
<t 表示序列的前 t

1 个元素,|y| 表示序列的长度。4.如权利要求1所述的方法,其特征在于,将输入数据分别加载到受限处理单元和通用处理单元的存储器中之后,所述方法还包括:从系统的存储器中读取大型预训练模型的预训练参数,加载到所述受限处理单元的存储器中;构造参数增量,加载到所述通用处理单元的存储器中。5.如权利要求1所述的方法,其特征在于,所述方法还包括:训练结束后,将最终的参数增量从所述通用处理单元的存储器保存到系统的存储器中,丢弃所述受限处理单元的存储器中的预训练参数。6.一种...

【专利技术属性】
技术研发人员:王明亮肖宇轩
申请(专利权)人:北京向量栈科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1