一种模型训练方法、装置及设备、介质、产品制造方法及图纸

技术编号：43571229 阅读：21 留言：0更新日期：2024-12-06 17:40

本申请提供了一种模型训练方法、装置及设备、介质、产品；该方法包括：获取待训练的网络模型，网络模型包括M个子网络模型；分别对每个子网络模型进行策略决策处理，得到每个子网络模型的并行策略；任一个子网络模型的并行策略用于指示该任一个子网络模型在模型训练过程中的并行训练任务及并行训练任务的执行方式；基于M个子网络模型的并行策略，构建网络模型的训练系统，训练系统包括M个通信组，一个通信组与一个子网络模型对应；在对网络模型进行模型训练的过程中，调用训练系统中的M个通信组分别按照对应子网络模型的并行策略所指示的执行方式，执行对应子网络模型的并行训练任务，以得到训练后的网络模型。本申请可以加快模型训练过程。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及人工智能，具体涉及一种模型训练方法、一种模型训练装置、一种计算机设备、一种计算机可读存储介质以及一种计算机程序产品。

技术介绍

1、集成网络模型是指将多个不同的单一网络模型组合在一起而生成的网络模型。单一网络模型指的是一个独立的神经网络模型，它通常由一个或多个神经网络层组成，用于执行特定的任务或学习特定的数据特征。通常会为集成网络模型设计并行策略，该并行策略用于指示集成网络模型的并行训练任务和该并行训练任务的执行方式，进而按照该并行策略所指示的执行方式，执行集成网络模型的并行训练任务，以加速集成网络模型的模型训练过程。但训练集成网络模型时仍然受到计算效率和可扩展性的限制，如何提升训练集成网络模型时的计算效率和可扩展性，进一步加快集成网络模型的模型训练过程，已成为技术人员所重点关注的问题。

技术实现思路

1、本申请实施例提供了一种模型训练方法、装置及设备、介质、产品，能够提升训练集成网络模型时的计算效率和可扩展性，加快集成网络模型的模型训练过程。

2、一...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，任一个所述子网络模型的并行策略还用于指示任一个所述子网络模型的并行参数，任一个所述子网络模型表示为子网络模型Mi，i为小于或者等于M的整数；

3.如权利要求2所述的方法，其特征在于，所述多个参考并行策略包括第一参考并行策略；所述并行参数包括数据并行参数、模型并行参数，所述数据并行参数包括微批次大小；

4.如权利要求2所述的方法，其特征在于，所述基于所述子网络模型Mi的策略搜索空间中每个所述参考并行策略指示的参考并行参数，确定所述子网络模型Mi在每个所述参考并行策略...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，任一个所述子网络模型的并行策略还用于指示任一个所述子网络模型的并行参数，任一个所述子网络模型表示为子网络模型mi，i为小于或者等于m的整数；

4.如权利要求2所述的方法，其特征在于，所述基于所述子网络模型mi的策略搜索空间中每个所述参考并行策略指示的参考并行参数，确定所述子网络模型mi在每个所述参考并行策略下的训练耗时之前，所述方法还包括：

5.如权利要求4所述的方法，其特征在于，所述多个参考并行策略包括第一参考并行策略；所述并行参数包括数据并行参数，所述数据并行参数包括微批次大小和数据并行度；

6.如权利要求1所述的方法，其特征在于，所述基于所述m个子网络模型的并行策略，构建所述网络模型的训练系统，包括：

7.如权利要求6所述的方法，其特征在于，任一个所述子网络模型表示为子网络模型mi，所述网络模型中还包括与所述子网络模型mi具有级联关系的子网络模型mj，所述子网络模型mi对应通信组i，所述子网络模型mj对应通信组j；i和j均为小于或者等于m的整数，且i不等于j；

8.如权利要求7所述的方法，其特征在于，任一个所述子网络模型的并行策略还用于指示任一个所述子网络模型的并行参数，所述并行参数包括数据并行参数，所述...

【专利技术属性】
技术研发人员：杨程旭，蒋杰，王迪，陶阳宇，薛金宝，刘成军，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人