一种神经网络模型知识蒸馏方法、系统、设备及介质技术方案

技术编号：26479569 阅读：38 留言：0更新日期：2020-11-25 19:24

本申请公开了一种神经网络模型知识蒸馏方法、系统、设备及介质，获取待知识蒸馏的第一神经网络模型；获取第二神经网络模型；生成用于对第二神经网络模型进行训练的目标样本集；将目标样本集作为第二神经网络模型的输入，将第一神经网络模型的输出作为第二神经网络模的输出，对第二神经网络模型进行知识蒸馏，得到目标神经网络模型。本申请中，在进行神经网络模型知识蒸馏的过程中，并不是直接应用第一神经网络模型训练过程中应用的训练样本集进行知识蒸馏，而是重新生成新的目标样本集来进行知识蒸馏，无需获取训练样本集，可以提高神经网络模型知识蒸馏的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络模型知识蒸馏方法、系统、设备及介质
本申请涉及神经网络模型
，更具体地说，涉及一种神经网络模型知识蒸馏方法、系统、设备及介质。
技术介绍
随着人工智能与深度神经网络模型的快速发展与应用，如何将已训练模型中的知识转移到新的目标任务中成为深度学习领域重要的研究方向。很多实际应用场景(如边缘推理计算)常需要更小更高效的模型，需要把大模型“精简”成小模型才能具体应用落地。模型蒸馏技术是对模型进行压缩的重要手段。然而，现有模型蒸馏方法中需要已训练模型之前训练所用的训练集数据，或者需要之前训练数据集的部分子集及其分布情况，在实际应用中，训练数据集常常非常巨大很难获取，无法实操，影响神经网络模型知识蒸馏的效率。综上所述，如何提高神经网络模型知识蒸馏的效率是目前本领域技术人员亟待解决的问题。
技术实现思路
本申请的目的是提供一种神经网络模型知识蒸馏方法，其能在一定程度上解决如何提高神经网络模型知识蒸馏的效率的技术问题。本申请还提供了一种神经网络模型知识蒸馏系统、设备及计算机可读存储介质。...

【技术保护点】
1.一种神经网络模型知识蒸馏方法，其特征在于，包括：/n获取待知识蒸馏的第一神经网络模型；/n获取第二神经网络模型；/n生成用于对所述第二神经网络模型进行训练的目标样本集；/n将所述目标样本集作为所述第二神经网络模型的输入，将所述第一神经网络模型的输出作为所述第二神经网络模的输出，对所述第二神经网络模型进行知识蒸馏，得到目标神经网络模型。/n

【技术特征摘要】
1.一种神经网络模型知识蒸馏方法，其特征在于，包括：
获取待知识蒸馏的第一神经网络模型；
获取第二神经网络模型；
生成用于对所述第二神经网络模型进行训练的目标样本集；
将所述目标样本集作为所述第二神经网络模型的输入，将所述第一神经网络模型的输出作为所述第二神经网络模的输出，对所述第二神经网络模型进行知识蒸馏，得到目标神经网络模型。

2.根据权利要求1所述的方法，其特征在于，所述生成用于对所述第二神经网络模型进行训练的目标样本集，包括：
选取所述第二神经网络模型的数据集中定义的一个数据类别；
生成与所述数据类别对应的随机噪声图像；
选取图像生成算法，基于所述图像生成算法对所述随机噪声图像进行图像生成，得到目标图像；
将所述目标图像作为所述目标样本集的样本。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标图像作为所述目标样本集的样本之后，所述将所述目标样本集作为所述第二神经网络模型的输入之前，还包括：
统计所述目标样本集中的样本数；
判断所述样本数是否小于预设数值；
若所述样本数小于所述预设数值，则返回执行所述选取所述第二神经网络模型的数据集中定义的一个数据类别的步骤；
若所述样本数大于等于所述预设数值，则执行所述将所述目标样本集作为所述第二神经网络模型的输入的步骤。

4.根据权利要求2所述的方法，其特征在于，所述选取图像生成算法，基于所述图像生成算法对所述随机噪声图像进行图像生成，得到目标图像，包括：
选取图像生成算法；
对所述图像生成算法的超参数进行设定；
基于设定后的所述图像生成算法对所述随机噪声图像进行图像生成，得到所述目标图像。

5.根据权利要求4所述的方法，其特征在于，所述图像生成算法的类型包括DeepDream算法；
所述对所述图像生成算法的超参数进行设定，包括：
对所述图像生成算法的学习率、批量大小、迭代次数进行设定。

6.根据权利要求2至5任一项所述的方...

【专利技术属性】
技术研发人员：朱克峰，阚宏伟，仝培霖，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人