基于个体学习的模型蒸馏改进方法、设备及存储介质技术

技术编号：24094010 阅读：43 留言：0更新日期：2020-05-09 09:24

本发明专利技术公开了一种基于个体学习的模型蒸馏改进方法，所述方法包括以下步骤：将预选训练集输入教师网络，经所述教师网络筛选后生成代表样本和非代表样本；确定学生网络用于处理代表样本的第一损失函数及用于处理非代表样本的第二损失函数；将所述预选训练集输入学生网络，经所述第一损失函数与第二损失函数训练得到训练后的学生网络。本发明专利技术还公开了一种智能设备及计算机可读存储介质。通过采用不同的损失函数对代表样本与非代表样本进行训练，提高了学生网络对于代表样本所属类别的表征能力，进而提高了学生网络对于单个样本所属类别的表征能力。

Improved method, equipment and storage medium of model distillation based on individual learning

全部详细技术资料下载

【技术实现步骤摘要】
基于个体学习的模型蒸馏改进方法、设备及存储介质
本专利技术涉及深度学习
，尤其涉及一种基于个体学习的模型蒸馏改进方法、智能设备及计算机可读存储介质。
技术介绍
近年来，深度学习越来越受到人们的关注，并成功应用于众多领域。但是随着移动终端设备的灵活性及其应用范围的广泛性的不断提高，越来越深的网络模型，对于计算机设备的算力与存储能力也提出了更高的要求。因而如何对深度神经网络模型进行压缩以适应更多轻便的移动设备和实时应用场景成为众多领域的研究热点。知识蒸馏作为模型压缩的一个主要研究方向，其主要思路是训练一个小模型(学生网络)来学习大模型(教师网络)的能力。目前主要有以下几种学习方法：第一种是基于传统的0，1标签构造交叉熵损失进行学习；第二种是使用学生网络的soft标签来帮助学生网络学习教师网络的能力；第三种是直接使用学生网络去拟合教师网络的一个中间层；第三种是使用学生网络去学习教师网络中多个中间层来提高学生网络的学习能力；第四种是通过学生网络学习教师网络多个样本间的关系，然而，上述这些蒸馏方法往往都是基于训练集中的单...

【技术保护点】
1.一种基于个体学习的模型蒸馏改进方法，其特征在于，所述基于个体学习的模型蒸馏改进方法包括以下步骤：/n将预选训练集输入教师网络，经所述教师网络筛选后生成代表样本和非代表样本；/n确定学生网络用于处理代表样本的第一损失函数及用于处理非代表样本的第二损失函数；/n将所述预选训练集输入学生网络，经所述第一损失函数与第二损失函数训练得到训练后的学生网络。/n

【技术特征摘要】
1.一种基于个体学习的模型蒸馏改进方法，其特征在于，所述基于个体学习的模型蒸馏改进方法包括以下步骤：
将预选训练集输入教师网络，经所述教师网络筛选后生成代表样本和非代表样本；
确定学生网络用于处理代表样本的第一损失函数及用于处理非代表样本的第二损失函数；
将所述预选训练集输入学生网络，经所述第一损失函数与第二损失函数训练得到训练后的学生网络。

2.如权利要求1所述的基于个体学习的模型蒸馏改进方法，其特征在于，所述经所述教师网络筛选后生成代表样本和非代表样本的步骤包括：
根据两个不同类别样本的样本特征计算第一欧式距离，并根据其中一个样本的样本特征及其所属类别的样本中心特征计算第二欧式距离；
根据最小的第一欧氏距离与所述第二欧氏距离确定样本的选择因子；
根据所述选择因子筛选出预选训练集中的代表样本与非代表样本。

3.如权利要求2所述的基于个体学习的模型蒸馏改进方法，其特征在于，所述根据所述选择因子筛选出所述训练集中的代表样本与非代表样本的步骤包括：
判断所述选择因子是否小于预设阈值；
若所述选择因子小于预设阈值，则判定当前样本为代表样本；
若所述选择因子大于或等于预设阈值，则判定当前样本为非代表样本。

4.如权利要求1所述的基于个体学习的模型蒸馏改进方法，其特征在于，所述确定学生网络用于处理代表样本的第一损失函数及用于处理非代表样本的第二损失函数的步骤包括：
根据教师网络的损失函数、教师网络的特征层以及学生网络的特征层，确定学生网络用于处理代表样本的第一损失函数。

5.如权利要求4所述的基于个体学习的模型蒸馏改进方法，其特征在于，所述根据教师网络的损失函数、教师网络的特征层以及学生网络的特征层，确定学生网络用于处理代表样本的第一损失函数的步骤包括：
计算学生网络的特征层拟合教师网络的特征层的拟合程度作为第一损失函数的第一部分，将与教师网络相同的损失函数作为第一损失函数的第二部分；
将第一参数与所...

【专利技术属性】
技术研发人员：尉桦，李一力，邵新庆，刘强，徐明，
申请(专利权)人：深圳力维智联技术有限公司，南京中兴力维软件有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人