模型参数更新方法、装置、电子设备和存储介质制造方法及图纸

技术编号：46331723 阅读：15 留言：0更新日期：2025-09-09 19:10

本申请实施例公开一种模型参数更新方法、装置、电子设备和存储介质，包括：对于N个执行进程中的目标执行进程，输入对应的目标输入量数据；利用目标执行进程执行基于目标输入量数据的模型训练过程，得到全部模型参数中每个模型参数的梯度值；基于模型参数集合与执行进程之间的映射关系，将目标模型参数集合所包括的模型参数的梯度值保留；接收除自身外的N‑1个执行进程发送的传入梯度值；对于目标模型参数集合中的目标模型参数，对目标模型参数对应的N个梯度值进行归约处理，得到归约梯度值；基于目标模型参数的初始值、以及目标模型参数对应的归约梯度值，计算目标模型参数的更新值。本申请减少对存储空间的占用，从而可以降低模型的训练成本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机领域，具体涉及一种模型参数更新方法、装置、电子设备和存储介质。

技术介绍

1、现有技术中，在对大模型进行训练时，往往会在训练过程中产生大量的模型的状态或参数model states。其中，model states包括模型的权重、偏置、梯度等。

2、然而，对于大模型来说，其内部的参数量往往数量庞大，数以亿计乃至百亿计，与参数相关的权重、偏置、梯度等在占据大量的存储空间，增加模型训练成本。

技术实现思路

1、本申请实施例提供一种模型参数更新方法、装置、电子设备和存储介质，可以改善现有技术中占用存储空间大、模型训练成本高的问题。

2、本申请实施例提供一种模型参数更新方法，用于对待训练模型的全部模型参数进行更新，所述方法包括：对于n个执行进程中的目标执行进程，输入对应的目标输入量数据；其中，所述目标执行进程为所述n个执行进程中的任一个执行进程，每个所述执行进程均携带有所述待训练模型的完整网络结构以及所述全部模型参数，所述目标输入量数据为n份输入量数据中与所述...

【技术保护点】

1.一种模型参数更新方法，其特征在于，用于对待训练模型的全部模型参数进行更新，所述方法包括：

2.如权利要求1所述的方法，其特征在于，在所述基于模型参数集合与执行进程之间的映射关系，将目标模型参数集合所包括的模型参数的梯度值保留之后，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述对于所述目标模型参数集合中的目标模型参数，对所述目标模型参数对应的N个梯度值进行归约处理，得到归约梯度值，包括：

4.如权利要求1所述的方法，其特征在于，所述利用所述目标执行进程执行基于所述目标输入量数据的模型训练过程，得到所述全部模型参数中每个模型参数的梯度值...

【技术特征摘要】

1.一种模型参数更新方法，其特征在于，用于对待训练模型的全部模型参数进行更新，所述方法包括：

3.如权利要求1所述的方法，其特征在于，所述对于所述目标模型参数集合中的目标模型参数，对所述目标模型参数对应的n个梯度值进行归约处理，得到归约梯度值，包括：

4.如权利要求1所述的方法，其特征在于，所述利用所述目标执行进程执行基于所述目标输入量数据的模型训练过程，得到所述全部模型参数中每个模型参数的梯度值，包括：

5.如权利要求4所述的方法，其特征在于，所述利用所述目标执行进程将所述目标输入量数据输入所述待训练模型，得到所述待训练模型输出的训练预测结果，包括：

6.如权利要求5所述的方法，其特征在于，n个执行进程与n个图形处理器一一对应；

7.如权利要求1所述的方法，其特征在于，n个执行进程与n个图形处理器一一对应；

8.如权利要求1所述的方法，其特征在于，n个执行进程与n个图形处理器一一对应，执行进程运行在对应的图像处理器中，所述模型参数的参数量超过设...

【专利技术属性】
技术研发人员：弓静，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人