一种模型训练加速方法、装置、设备及存储介质制造方法及图纸

技术编号：41494330 阅读：19 留言：0更新日期：2024-05-30 14:39

本申请涉及计算机技术领域，提供一种模型训练加速方法、装置、设备及存储介质，用于提高模型训练的效率。目标CPU基于GPU发送的模型的多个梯度值对模型的权重进行更新的过程中，针对数据表示范围较大的第一数据类型的训练数据，设置了不对多个梯度值进行溢出检查的策略，而针对数据表示范围较小的第二类型的训练数据，设置了对多个梯度值进行溢出检查的策略，这样，权重更新过程中可以减少梯度值溢出检查占用的时间，从而提高了模型的训练效率。同时，由于目标CPU所在的CPU集属于同一NUMA节点且与GPU之间存在亲和性，这样，目标CPU基于多个梯度值更新权重时，可避免跨NUMA节点访问数据，进一步提高了模型训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】

所属的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。与上述方法实施例基于同一专利技术构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，也可以是终端设备。在该实施例中，电子设备的结构可以如图12所示，包括存储器1201，通讯模块1204以及至少一个gpu 1202和多个cpu1203。存储器1201，用于存储gpu 1202和cpu 1203执行的计算机程序。存储器1201可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。存储器1201可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，ram）；存储器1201也可以是非易失性存储器（non-volatilememor...

【技术保护点】

1.一种模型训练加速方法，其特征在于，应用于目标CPU，所述方法包括：

2.如权利要求1所述的方法，其特征在于，在所述模型的训练数据的数据类型为第二数据类型的情况下，所述损失值是基于模型损失尺度对损失初始值调整得到的，所述损失初始值是根据所述前向预测结果得到的。

3.如权利要求2所述的方法，其特征在于，所述模型损失尺度用于增大所述损失初始值；

4.如权利要求2所述的方法，其特征在于，所述模型损失尺度用于增大所述损失初始值；

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

6.如权利要求1至5中任一项所述的方法，其特征在...

【技术特征摘要】

1.一种模型训练加速方法，其特征在于，应用于目标cpu，所述方法包括：

3.如权利要求2所述的方法，其特征在于，所述模型损失尺度用于增大所述损失初始值；

4.如权利要求2所述的方法，其特征在于，所述模型损失尺度用于增大所述损失初始值；

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

6.如权利要求1至5中任一项所述的方法，其特征在于，所述目标cpu属于cpu集，所述cpu集与所述gpu之间存在亲和性，且所述cpu集中的所有cpu属于同一个numa节点。

7.一种模型训练加速方法，其特征在于，应用于gpu，所述方法包括：

8.如权利要求7所述的方法，其特征在于，所述根据模型的前向预测结果计算所述模型的损失值，包括：

9.如权利要求8所述的方法，其特征在于，所述方法还包括：

10.如权利要求8所述的方...

【专利技术属性】
技术研发人员：弓静，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人