模型检查点参数域平均方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35000240 阅读：17 留言：0更新日期：2022-09-21 14:49

本发明专利技术提供一种模型检查点参数域平均方法、装置、电子设备及存储介质，该方法涉及人工智能技术领域，包括：在对待训练深度神经网络模型训练过程中，保存多个检查点和所述多个检查点分别对应的多个模型参数；所述检查点用于表示在训练过程中不同阶段的模型；确定在各所述检查点分别对应的所述模型的损失函数的总损失值；基于所述总损失值，从所述多个检查点中确定待平均检查点；对所述待平均检查点对应的多个模型参数进行参数平均，得到所述模型的参数平均值。本发明专利技术提供的方法，结合了在训练集和验证集上模型的损失函数的总损失值，同时考虑了模型的偏差和方差，提升了模型的性能。提升了模型的性能。提升了模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
模型检查点参数域平均方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种模型检查点参数域平均方法、装置、电子设备及存储介质。

技术介绍

[0002]目前，深度学习已经成为推动人工智能技术进步的动源之一。然而，基于深度学习的深度神经网络模型的非凸属性，使得模型最终仅能收敛到某个局部最优点；而且，由于模型初始化时的随机性，以及模型训练过程中梯度下降引入的随机性，使得模型在训练过程中的损失值不断波动；尤其是当模型已经趋近于收敛时，模型的损失值会出现大量的局部最小值点。因此，如何利用这些局部最优点提升模型的性能，是深度学习领域的一项重要任务。
[0003]深度学习模型的训练过程需要迭代多轮训练数据(Epoch)，而在训练过程中，可以根据需要设置检查点(Checkpoint)来保存当前阶段的模型训练参数，以对该检查点时刻模型的性能进行评估。
[0004]相关技术中，基于检查点参数域的模型平均已经成为提升深度学习模型性能的基础配置方法；其中，主流的方法包括：最后K个检查点进行参数平均(Last K
‑
Checkpoint Averaging，LKCA)和K个最优检点进行参数平均(K
‑
Best Checkpoint Averaging，KBCA)；其中，LKCA策略一般配合早停(Early Stop)策略同时使用，选择的检查点为训练集上接近收敛的K个连续检查点模型进行平均，而BKCA策略则选择验证集上损失函数分值最小的K个检查点模型进行平均。...

【技术保护点】

【技术特征摘要】
1.一种模型检查点参数域平均方法，其特征在于，包括：在对待训练深度神经网络模型训练过程中，保存多个检查点和所述多个检查点分别对应的多个模型参数；所述检查点用于表示在训练过程中不同阶段的模型；确定在各所述检查点分别对应的所述模型的损失函数的总损失值；基于所述总损失值，从所述多个检查点中确定待平均检查点；对所述待平均检查点对应的多个模型参数进行参数平均，得到所述模型的参数平均值。2.根据权利要求1所述的模型检查点参数域平均方法，其特征在于，所述确定在各所述检查点分别对应的所述模型的损失函数的总损失值，包括：分别计算各所述检查点在训练集和验证集上损失函数的损失值；基于各所述检查点在训练集和验证集上损失函数的损失值，确定各所述检查点分别对应的所述模型的损失函数的总损失值。3.根据权利要求2所述的模型检查点参数域平均方法，其特征在于，所述基于各所述检查点在训练集和验证集上损失函数的损失值，确定各所述检查点分别对应的所述模型的损失函数的总损失值，包括：基于各所述检查点在验证集上损失函数的损失值，确定连续K个检查点对应的损失函数的损失值之和；所述K为正整数；基于所述损失函数的损失值之和，确定所述损失函数的损失值之和最小的所述连续K个检查点；基于所述连续K个检查点，确定各所述检查点分别对应的所述模型的损失函数的总损失值。4.根据权利要求3所述的模型检查点参数域平均方法，其特征在于，所述基于所述连续K个检查点，确定各所述检查点分别对应的所述模型的损失函数的总损失值，包括：基于所述连续K个检查点中第一个检查点在验证集上损失函数的损失值和所述第一个检查点在训练集上损失函数的损失值，计算所述第一个检查点的贡献率；根据各所述检查点的当前位置，计算各所述检查点的惩罚因子；基于所述贡献率和所述惩罚因子，计算各所述检查点分别对应的所述模型的损失函数的总损失值...

【专利技术属性】
技术研发人员：王方圆，徐波，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人