基于全局关系知识蒸馏的模型压缩方法技术

技术编号：33656431 阅读：85 留言：0更新日期：2022-06-02 20:36

本发明专利技术公开了基于全局关系知识蒸馏的模型压缩方法，基于特征关系知识的模型压缩方法能够有效地提高小容量学生网络的性能，但是目前的工作只是关注于单个样本特征之间的局部关系，忽略了样本特征之间的全局关系，然而，如果教师网络与学生网络之间缺乏全局特征关系进行对齐的情况下，强迫学生网络模拟教师网络的样本特征两两之间的关系的条件将会过于严格，对学生网络模型的性能将会产生不利影响。该方法首先将采集到的图像数据集随机分为训练数据集和测试数据集，然后利用交叉熵损失函数对教师网络中的参数进行优化，接下来基于最大均值差异方法基于教师网络和学生网络中样本特征计算全局特征关系蒸馏对学生网络进行优化。优化。优化。

全部详细技术资料下载

【技术实现步骤摘要】
基于全局关系知识蒸馏的模型压缩方法

[0001]本专利技术涉及基于全局关系知识蒸馏的模型压缩方法，属于计算机视觉领域。

技术介绍

[0002]近年来，深度卷积神经网络在诸如图像分类、目标检测、语义分割等若干计算机视觉任务都取得了前所未有的成功。然而这些深度卷积神经网络模型体积庞大，往往具有数量巨大的参数。因此，将其部署到实际应用中通常占有较高的计算资源(存储空间、计算单元等)，并带来较高的时间延迟。在这种背景，知识蒸馏作为一种非常有效的模型压缩方法被提出。该方法利用大模型教师网络学习到的知识去指导小规模的学生网络的训练，使得参数数量大幅降低的小模型具有与大模型相当的性能。知识蒸馏技术因其简单的训练策略以及有效的性能已经在工业界和科学界引起了广泛的研究兴趣。
[0003]目前知识蒸馏方法中的两个关键要素可以归结为：(1)有效知识类型的定义。(2)知识从教师网络到学生网络的有效性传递。经典的知识蒸馏方法[Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural networ本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于全局关系知识蒸馏的模型压缩方法，其特征在于，包括如下主要步骤：步骤1.准备图像数据.将采集到的图像数据集随机分为训练数据集和测试数据集，其中前者被用为教师网络的预训练以及对学生网络的知识蒸馏，后者被用作为对压缩后的学生网络进行测试。步骤2.教师网络的预训练.将教师网络随机化为一个由若干卷积层组成的大容量神经网络模型，训练图像依次被输入到教师网络中得到输出值，然后利用交叉熵损失函数对网络中的参数进行优化。步骤3.蒸馏知识的构建.固定预训练好的教师网络中的参数，并将学生网络随机化为一个由少量卷积层组成的小容量神经网络模型；训练图像依次被分别输入到教师网络和学生网络中得到输出值，并分别计算教师网络和学生网络中样本特征。步骤4.模型压缩.基于学生网络的输出值与真实标签之间计算交叉熵损失函数，基于学生网络输出值与教师网络输出值之间计算输出蒸馏损失函数，基于教师网络和学生网络中样本特征计算全局特征关系蒸馏损失函数，最后利用总的损失函数对学生网络进行优化。步骤5.学生网络的部署.固定训练好的学生网络中的参数，将测试图像输入到学生网络中得到图像类别输出值。2.根据权利要求1所述基于全局关系知识蒸馏的模型压缩方法，其特征在于，步骤1的具体描述如下：(1)将采集到的图像数据集随机分为训练数据集和测试数据集，其中前者被用为教师网络的预训练以及对学生网络的知识蒸馏，后者被用作为对压缩后的学生网络进行测试。(2)训练数据集是由N幅图像组成这N幅图像分属于C种类别，其中第i幅图像为I
i
，其对应的标签为y
i
。(3)测试数据集是由M幅图像组成这M幅图像同样分属于C种类别，其中第j幅图像为I
j
，其对应的标签未知。3.根据权利要求1所述.基于全局关系知识蒸馏的模型压缩方法，其特征在于，步骤2的具体描述如下：(1)构建教师网络，该网络主要由若干卷积层组成的主干神经网络和线性分类器两部分组成，其中θ和W为教师网络中待优化的参数。(2...

【专利技术属性】
技术研发人员：邹修明，翁小兰，
申请(专利权)人：淮阴师范学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人