一种模型的训练方法、装置、存储介质及电子装置制造方法及图纸

技术编号：33477990 阅读：36 留言：0更新日期：2022-05-19 00:53

本发明专利技术实施例提供了一种模型的训练方法、装置、存储介质及电子装置，其中，该方法包括：基于初始网络模型中包括的第一初始模型的第一训练精度确定第一初始模型的第一评价指标，以及基于初始网络模型中包括的第二初始模型的第二训练精度确定第二初始模型的第二评价指标；在第一评价指标以及第二评价指标中存在大于预定阈值的评价指标的情况下，将第一评价指标以及第二评价指标中包括的最小评价指标对应的初始模型确定为待优化的目标初始模型；利用训练数据以及其他初始模型训练目标初始模型，得到目标网络模型。通过本发明专利技术，解决了相关技术中存在的模型训练时间长、效率低的问题，达到提高模型的训练效率的效果。达到提高模型的训练效率的效果。达到提高模型的训练效率的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型的训练方法、装置、存储介质及电子装置

[0001]本专利技术实施例涉及计算机领域，具体而言，涉及一种模型的训练方法、装置、存储介质及电子装置。

技术介绍

[0002]近年来，深度学习发展迅猛，被应用到计算机视觉、语音识别以及自然语言处理上。随着数据规模积累的足够大，场景越加复杂，往往会使用到更加复杂的模型结构，这不仅仅需要更大的算力需求，同时也对存储带来了一定的挑战。由此以衍生了模型优化、压缩、剪枝、蒸馏等技术方案，而模型蒸馏就这些方案中比较常用的一种。
[0003]蒸馏方案主要以一个优秀的Teacher 模型为基础，通过知识蒸馏将Teacher 模型优秀的表现传递给Student模型，从而得到一个又好又快的Student模型。然而，在相关技术中，Teacher模型是提前训练好的，且Teacher模型的精度要高于Student模型，由此导致了模型训练时间长、效率低的问题。
[0004]针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种模型的训练方法、装置、存储介质及电子装置，以至少解决相关技术中存在的模型训练时间长、效率低的问题。
[0006]根据本专利技术的一个实施例，提供了一种模型的训练方法，包括：基于初始网络模型中包括的第一初始模型的第一训练精度确定所述第一初始模型的第一评价指标，以及基于所述初始网络模型中包括的第二初始模型的第二训练精度确定所述第二初始模型的第二评价指标，其中，所述初始网络模型为经过训...

【技术保护点】

【技术特征摘要】
1.一种模型的训练方法，其特征在于，包括：基于初始网络模型中包括的第一初始模型的第一训练精度确定所述第一初始模型的第一评价指标，以及基于所述初始网络模型中包括的第二初始模型的第二训练精度确定所述第二初始模型的第二评价指标，其中，所述初始网络模型为经过训练得到的网络模型；在所述第一评价指标以及所述第二评价指标中存在大于预定阈值的评价指标的情况下，将所述第一评价指标以及所述第二评价指标中包括的最小评价指标对应的初始模型确定为待优化的目标初始模型；利用训练数据以及其他初始模型训练所述目标初始模型，得到目标网络模型，其中，所述其他初始模型为所述第一评价指标以及所述第二评价指标中包括的最大评价指标对应的初始模型。2.根据权利要求1所述的方法，其特征在于，利用训练数据以及其他初始模型训练所述目标初始模型，得到目标网络模型包括：将训练数据输入至所述其他初始模型中，确定所述其他初始模型输出的第一特征；将所述训练数据以及所述第一特征输入至所述目标初始模型中，确定所述目标初始模型的第一损失值；基于所述第一损失值迭代更新所述目标初始模型的网络参数，得到所述目标网络模型。3.根据权利要求2所述的方法，其特征在于，将所述训练数据以及所述第一特征输入至所述目标初始模型中，确定所述目标初始模型的第一损失值包括：确定所述第一特征中包括的每个特征层的第一子特征与所述目标初始模型输出的第二子特征之间的损失值，得到多个第二损失值，其中，所述第二子特征与所述第一子特征处于相同的特征层；确定多个所述第二损失值的第一和值；确定所述第二损失值对应的目标权重；确定所述第一和值与所述目标权重的第一乘积；基于所述目标初始模型输出的特征与所述其他初始模型输出的特征确定第三损失值；将所述第一乘积与所述第三损失值的第二和值确定为所述第一损失值。4.根据权利要求3所述的方法，其特征在于，确定所述第二损失值对应的目标权重包括：确定所述目标初始模型的评价指标与第一参数的第二乘积；确定所述第二乘积与第二参数的第一差值；将所述第一差值与第三参数的比值确定为所述目标权重。5.根据权利要求1所述的方法，其特征在于，在基于所述初始网络模型中包括的第二初始模型的第二训练精度确定所述第二初始模型的第二评价指标之后，所述方法还包括：在所述第一评价指标以及所述第二评价指标均小于或等于预定阈值的情况下，将所述第一初始模型以及所述第二初始模型确定为所述目标初始模型；利用训练数据迭代更新所述目标初始模型的网络参数，得到更新后的所...

【专利技术属性】
技术研发人员：彭垚，杨德城，林亦宁，
申请(专利权)人：北京闪马智建科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人