使用渐进式知识蒸馏训练神经网络模型的方法和系统技术方案

技术编号：37511274 阅读：11 留言：0更新日期：2023-05-12 15:30

训练学生神经网络(SNN)模型的方法和系统。在多个轮次上执行第一训练阶段，在第一训练阶段期间，教师神经网络(TNN)模型输出的平滑因子以生成平滑的TNN模型输出，基于SNN模型输出和平滑的TNN模型输出来计算第一损失，并且以在接下来的第一训练阶段轮次中减少所述第一损失为目标，来计算SNN模型参数的更新集合。在第一训练阶段的多个轮次上调整平滑因子，以减少所生成的平滑的TNN模型输出的平滑效应。基于SNN模型输出和针对多个输入数据样本的预定义的预期输出集合来执行第二训练阶段。段。段。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用渐进式知识蒸馏训练神经网络模型的方法和系统
[0001]相关申请数据
[0002]本申请要求2020年9月9日递交的第63/076,368号美国临时专利申请案的在先申请优先权，该在先申请的内容以引入的方式并入本文。

[0003]本申请涉及用于训练机器学习模型的方法和系统，具体地，用于使用知识蒸馏训练神经网络模型的方法和系统。

技术介绍

[0004]基于深度学习的算法属于机器学习方法，用于自然语言处理(natural language processing，NLP)和计算机视觉(computer vision，CV)领域的许多机器学习应用。深度学习包括将非线性参数函数或“神经元”层组合在一起，并训练参数或“权重”，通常使用基于梯度的优化算法，以最小化损失函数。这些方法成功的一个关键原因是能够通过增加参数和数据来提高性能。在NLP中，这催生了具有数十亿参数的深度学习架构(Brown等人，2020年)。研究表明，大型架构或“模型”也更易于优化。因此，模型压缩对于任何实际应用都是必不可少的，例如在手机上为个人助理部署经过训练的机器学习模型。
[0005]知识蒸馏(knowledge distillation，KD)是一种神经网络压缩技术，通过这种技术，复杂神经网络模型的泛化被转移到一个较不复杂的神经网络模型中，该模型能够以较少的计算资源成本和时间作出与复杂模型相似的推断(即预测)。在本文中，复杂神经网络模型是指具有相对较多计算资源(例如GPU/CPU功率和计算机存储空间)的神经网络模型和/或包括相...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练由学生神经网络(SNN)模型参数的集合配置的SNN模型以生成关于输入数据样本的输出的方法，包括：获取多个输入数据样本的相应的教师神经网络(TNN)模型输出；执行所述SNN模型的第一训练阶段，所述第一训练阶段包括在多个第一训练阶段轮次上训练所述SNN模型，每个第一训练阶段轮次包括：计算针对所述多个输入数据样本的SNN模型输出；将平滑因子应用于所述教师神经网络(TNN)模型输出，以生成平滑的TNN模型输出；基于所述SNN模型输出和所述平滑的TNN模型输出来计算第一损失；以及以在接下来的第一训练阶段轮次中减少所述第一损失为目标，来计算所述SNN模型参数的更新集合，其中所述平滑因子在所述多个第一训练阶段轮次上被调整，以减少所生成的所述平滑的TNN模型输出上的平滑效应；执行所述SNN模型的第二训练阶段，所述第二训练阶段包括利用从在所述第一训练阶段期间被计算的所述SNN模型参数的多个所述更新集合选择的SNN模型参数的集合来初始化所述SNN模型，所述SNN模型的所述第二训练阶段在多个第二训练阶段轮次上被执行，每个第二训练阶段轮次包括：计算来自所述SNN模型的、针对所述多个输入数据样本的SNN模型输出；基于所述SNN模型输出和针对所述多个输入数据样本的预定义的预期输出集合来计算第二损失；以及以在接下来的第二训练阶段轮次中减少所述第二损失为目标，来计算所述SNN模型参数的更新集合，从在第二训练阶段期间被计算的SNN模型参数的多个所述更新集合选择SNN模型参数的最终集合。2.根据权利要求1所述的方法，其中在所述第一训练阶段中的每个轮次，所述平滑因子被计算为其中t
max
是常数，并且t的值在每个后续的第一训练阶段轮次中被递增。3.根据权利要求1或2所述的方法，其中所述第一损失对应于所述SNN模型输出与所述平滑的TNN模型输出之间的散度。4.根据权利要求3所述的方法，其中所述第一损失对应于所述SNN模型输出与所述平滑的TNN模型输出之间的Kullback
‑
Leibler散度。5.根据权利要求1至3中任一项所述的方法，其中所述第二损失对应于所述SNN模型输出与所述预定义的预期输出集合之间的散度。6.根据权利要求5所述的方法，其中所述第二损失基于交叉熵损失函数而被计算。7.根据权利要求1至6中任一项所述的方法，还包括：针对每个第一训练阶段轮次，确定相对于在所述第一训练阶段期间关于开发数据集先前所计算的SNN模型参数的多个更新集合，所述SNN模型参数的所计算的所述更新集合是否提高了所述SN...

【专利技术属性】
技术研发人员：阿雷夫，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人