模型训练方法及装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：40707959 阅读：12 留言：0更新日期：2024-03-22 11:08

本申请公开了一种模型训练方法及装置、电子设备及计算机可读存储介质。该方法包括：获取训练数据，所述训练数据用于更新待训练模型的参数；通过所述待训练模型对所述训练数据进行处理，确定所述待训练模型的第一层的目标梯度；基于预设的目标权重和所述目标梯度，得到所述第一层的更新梯度，所述目标权重表征所述第一层的输出对所述待训练模型输出的结果准确度的提升程度；在基于所述训练数据更新所述待训练模型的参数的过程中，基于所述更新梯度更新所述第一层的参数，得到目标模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及一种模型训练方法及装置、电子设备及计算机可读存储介质。

技术介绍

1、通过对模型进行训练，可使模型具备处理数据的能力。而为提升训练效果，通常需要对模型进行充分的训练，但是充分的训练需要耗费较长的时间，进而导致训练时间长、训练效率低。因此，如何缩短训练时间、提升训练效率具有非常重要的意义。

技术实现思路

1、本申请提供一种模型训练方法及装置、电子设备及计算机可读存储介质。

2、第一方面，提供了一种模型训练方法，所述方法包括：

3、获取训练数据，所述训练数据用于更新待训练模型的参数；

4、通过所述待训练模型对所述训练数据进行处理，确定所述待训练模型的第一层的目标梯度；

5、基于预设的目标权重和所述目标梯度，得到所述第一层的更新梯度，所述目标权重表征所述第一层的输出对所述待训练模型输出的结果准确度的提升程度；

6、在基于所述训练数据更新所述待训练模型的参数的过程中，基于所述更新梯度更新所述第一层的参数，得到目标模型。

...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述在基于所述训练数据更新所述待训练模型的参数的过程中，基于所述更新梯度更新所述第一层的参数，得到目标模型，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述待训练模型包括第二层，所述第二层的输出为所述待训练模型输出的结果；

4.根据权利要求3所述的方法，其特征在于，所述对所述第一结果和所述第二结果进行拼接，得到拼接结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第一结果和所述第二结果进行拼接，得到中间结果，包括：

<...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

3.根据权利要求1或2所述的方法，其特征在于，所述待训练模型包括第二层，所述第二层的输出为所述待训练模型输出的结果；

4.根据权利要求3所述的方法，其特征在于，所述对所述第一结果和所述第二结果进行拼接，得到拼接结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述第一结果和所述第二结果进行拼接，得到中间结果，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述拼接结果与所述训练数据的标签的差异，确定所述目标梯度，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一层的损失，确定...

【专利技术属性】
技术研发人员：李军伟，
申请(专利权)人：行吟信息科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人