基于相似关系知识蒸馏的模型轻量化方法及相关装置制造方法及图纸

技术编号：35991760 阅读：15 留言：0更新日期：2022-12-17 23:07

本发明专利技术公开基于相似关系知识蒸馏的模型轻量化方法及相关装置，该方法包括如下步骤：将样本数据分别输入教师网络和学生网络，获得所述教师网络输出的获得教师特征以及学生网络输出的学生特征；计算教师特征和学生特征之间的相似性，并基于所述相似性确定注意知识迁移函数；基于样本数据与学生特征间的损失确定子损失函数；将所述子损失函数和加权后的注意知识迁移函数之和作为学生网络训练的整体损失函数。本发明专利技术可以将教师特征知识自适应地转移到学生层次的多个层次，从而提高轻量化模型的分类性能，在保证模型精度的同时,进一步减少模型的体量。少模型的体量。少模型的体量。

全部详细技术资料下载

【技术实现步骤摘要】
基于相似关系知识蒸馏的模型轻量化方法及相关装置

[0001]本专利技术涉及机器学习
，尤其涉及基于相似关系知识蒸馏的模型轻量化方法及相关装置。

技术介绍

[0002]在实际的应用中，目标检测模型参数量、计算量大很难部署在移动端平台上，所以对模型进行轻量化的研究是十分必要的。模型压缩和加速是两个不同的话题，有时候压缩并不一定能带来加速的效果，有时候又是相辅相成的。压缩重点在于减少网络参数量，加速则侧重在降低计算复杂度、提升并行能力等。模型压缩和加速可以从多个角度来优化。总体来看，主要分为两个方面：算法层压缩加速和硬件层加速。
[0003]在算法层压缩加速这个维度的模型轻量化的研究中涌现出众多的研究成果。近期研究工作可分为四大类：低秩分解、模型量化、网络剪枝，以及知识蒸馏。其中知识蒸馏是一种将知识从教师网络转移到目标神经网络的技术，通过预先培训教师网络，将模型在实现任务的过程中所学习的知识特征,通过蒸馏损失告知学生网络问题的解决方案与中间过程，这种信息监督方式，能够督促学生网络进行快速有效的学习。但是现有的知识蒸馏方法都是基于手工设定将教师网络与学生网络联系起来，但是基于手工设定的选择往往会建立起无效的知识传播途径，且总是在降低模型体量的同时，一定程度上降低了模型的精度，影响蒸馏的效果，因此，如何在保证模型精度的同时,进一步减少模型的体量，是如今迫切需要解决的问题。

技术实现思路

[0004]为了解决上述技术问题，本专利技术提出基于相似关系知识蒸馏的模型轻量化方法及相关装置，采用的基础是深度...

【技术保护点】

【技术特征摘要】
1.基于相似关系知识蒸馏的模型轻量化方法，其特征在于，包括如下步骤：将样本数据分别输入教师网络和学生网络，获得所述教师网络输出的获得教师特征以及学生网络输出的学生特征；计算教师特征和学生特征之间的相似性，并基于所述相似性确定注意知识迁移函数；基于样本数据与学生特征间的损失确定子损失函数；将所述子损失函数和加权后的注意知识迁移函数之和作为学生网络训练的整体损失函数。2.根据权利要求1所述的基于相似关系知识蒸馏的模型轻量化方法，其特征在于，所述教师网络采用Resnet50，所述学生网络采用Resnet18。3.根据权利要求2所述的基于相似关系知识蒸馏的模型轻量化方法，其特征在于，所述教师网络和学生网络均采用全局平均池化和通道池化对每层提取的特征进行处理。4.根据权利要求1所述的基于相似关系知识蒸馏的模型轻量化方法，其特征在于，所述计算教师特征和学生特征之间的相似性，并基于所述相似性确定注意知识迁移函数，具体包括如下步骤：采用多头注意力机制计算教师特征和学生特征之间的相似性，获取相似性最大的教师特征向量和相似性最大的学生特征向量；通过所述相似性最高的教师特征和相似性最高的学生特征确定注意知识迁移函数。5.根据权利要求1所述的基于相似关系知识蒸馏的模型轻量化方法，其特征在于，所述子损失函数为交叉熵损失函数。6.根据权利要求1所述的基于相似关系知识蒸馏的模型轻量化方法，其特征在于，所述整体损失函数，公式为：L
...

【专利技术属性】
技术研发人员：马培龙，
申请(专利权)人：佳源科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人