基于相似关系知识蒸馏的模型轻量化方法及相关装置制造方法及图纸

技术编号:35991760 阅读:15 留言:0更新日期:2022-12-17 23:07
本发明专利技术公开基于相似关系知识蒸馏的模型轻量化方法及相关装置,该方法包括如下步骤:将样本数据分别输入教师网络和学生网络,获得所述教师网络输出的获得教师特征以及学生网络输出的学生特征;计算教师特征和学生特征之间的相似性,并基于所述相似性确定注意知识迁移函数;基于样本数据与学生特征间的损失确定子损失函数;将所述子损失函数和加权后的注意知识迁移函数之和作为学生网络训练的整体损失函数。本发明专利技术可以将教师特征知识自适应地转移到学生层次的多个层次,从而提高轻量化模型的分类性能,在保证模型精度的同时,进一步减少模型的体量。少模型的体量。少模型的体量。

【技术实现步骤摘要】
基于相似关系知识蒸馏的模型轻量化方法及相关装置


[0001]本专利技术涉及机器学习
,尤其涉及基于相似关系知识蒸馏的模型轻量化方法及相关装置。

技术介绍

[0002]在实际的应用中,目标检测模型参数量、计算量大很难部署在移动端平台上,所以对模型进行轻量化的研究是十分必要的。模型压缩和加速是两个不同的话题,有时候压缩并不一定能带来加速的效果,有时候又是相辅相成的。压缩重点在于减少网络参数量,加速则侧重在降低计算复杂度、提升并行能力等。模型压缩和加速可以从多个角度来优化。总体来看,主要分为两个方面:算法层压缩加速和硬件层加速。
[0003]在算法层压缩加速这个维度的模型轻量化的研究中涌现出众多的研究成果。近期研究工作可分为四大类:低秩分解、模型量化、网络剪枝,以及知识蒸馏。其中知识蒸馏是一种将知识从教师网络转移到目标神经网络的技术,通过预先培训教师网络,将模型在实现任务的过程中所学习的知识特征,通过蒸馏损失告知学生网络问题的解决方案与中间过程,这种信息监督方式,能够督促学生网络进行快速有效的学习。但是现有的知识蒸馏方法都是基于手工设定将教师网络与学生网络联系起来,但是基于手工设定的选择往往会建立起无效的知识传播途径,且总是在降低模型体量的同时,一定程度上降低了模型的精度,影响蒸馏的效果,因此,如何在保证模型精度的同时,进一步减少模型的体量,是如今迫切需要解决的问题。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提出基于相似关系知识蒸馏的模型轻量化方法及相关装置,采用的基础是深度学习技术的有效特征提取技术,可以将教师特征知识自适应地转移到学生层次的多个层次,从而提高轻量化模型的分类性能,在保证模型精度的同时,进一步减少模型的体量。
[0005]为了达到上述目的,本专利技术的技术方案如下:
[0006]基于相似关系知识蒸馏的模型轻量化方法,包括如下步骤:
[0007]将样本数据分别输入教师网络和学生网络,获得所述教师网络输出的获得教师特征以及学生网络输出的学生特征;
[0008]计算教师特征和学生特征之间的相似性,并基于所述相似性确定注意知识迁移函数;基于样本数据与学生特征间的损失确定子损失函数;
[0009]将所述子损失函数和加权后的注意知识迁移函数之和作为学生网络训练的整体损失函数。
[0010]优选地,所述教师网络采用Resnet50,所述学生网络采用Resnet18。
[0011]优选地,所述教师网络和学生网络均采用全局平均池化和通道池化对每层提取的特征进行处理。
[0012]优选地,所述计算教师特征和学生特征之间的相似性,并基于所述相似性确定注意知识迁移函数,具体包括如下步骤:
[0013]采用多头注意力机制计算教师特征和学生特征之间的相似性,
[0014]获取相似性最大的教师特征向量和相似性最大的学生特征向量;
[0015]通过所述相似性最高的教师特征和相似性最高的学生特征确定注意知识迁移函数。
[0016]优选地,所述子损失函数为交叉熵损失函数。
[0017]优选地,所述整体损失函数,公式为:
[0018]L
total
=L
cls


L
AT
[0019]式中,L
cls
为子损失函数;L
AT
为注意知识迁移函数,β'为控制蒸馏损失影响的权衡参数。
[0020]优选地,所述控制蒸馏损失影响的权衡参数β'的确认公式为:
[0021][0022]式中,代表着初始权重的蒸馏损失,γ是常系数,ne代表着整个训练过程中的第n次循环, n是经验值代表着循环次数。
[0023]基于上述内容,本专利技术还公开了一种基于相似关系知识蒸馏的模型轻量化装置,包括:处理模块、计算模块和确定模块,其中,
[0024]所述处理模块,用于将样本数据分别输入教师网络和学生网络,获得所述教师网络输出的获得教师特征以及学生网络输出的学生特征;
[0025]所述计算模块,用于计算教师特征和学生特征之间的相似性,并基于所述相似性确定注意知识迁移函数;用于基于样本数据与学生特征间的损失确定子损失函数;
[0026]所述确定模块,用于将所述子损失函数和加权后的注意知识迁移函数之和作为学生网络训练的整体损失函数。
[0027]基于上述内容,本专利技术还公开了一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一所述的方法。
[0028]基于上述内容,本专利技术还公开了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述的方法。
[0029]基于上述技术方案,本专利技术的有益效果是:
[0030]1)本专利技术采用全局平均池化,降低参数量,减少过拟合(正则化)、将空间信息进行汇总,增加泛化能力;采用通道池化进行降维在减少特征图数量的同时保留其显著特征;
[0031]2)本专利技术分块相似性计算可以有效的在减少相似关系的计算量的同时进一步减少教师网络有差别特征对学生特征知识的引导;
[0032]3)本专利技术提出的新颖的蒸馏损失函数,通过损失衰减因子,减少教师网络在学生网络后期学习过程中信息的干扰;
[0033]4)本专利技术通过计算教师网络与学生网络之间的空间特征相似性计算,有效的提升了教师网络与学生网络之间知识传递的效果,提升了轻量化学生网络的性能。
附图说明
[0034]图1是一个实施例中基于相似关系知识蒸馏的模型轻量化方法流程图;
[0035]图2是一个实施例中教师网络和学生网络相似性确认示意图;
[0036]图3是一个实施例中一种基于相似关系知识蒸馏的模型轻量化系统的结构示意图;
[0037]图4是一个实施例中一种计算机设备的结构框图;
[0038]图5是一个实施例中基于相似关系知识蒸馏的模型轻量化方法的程序产品的结构示意图。
具体实施方式
[0039]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0040]如图1所示,本实施例提供基于相似关系知识蒸馏的模型轻量化方法,包括如下步骤:
[0041]步骤S101,将样本数据分别输入教师网络和学生网络,获得所述教师网络输出的获得教师特征以及学生网络输出的学生特征。
[0042]本实施例中,考虑到教师网络与学生网络之间差异性质过大,会导致蒸馏效果一定程度的下降,因此,教师网络采用Resnet50,学生网络采用Resnet18。对于ResNet50和ResNet18 首先都会使用一个7
×
7大小,输出通道数为64,步长(stride)为2的卷积。然后ResNet50 会使用4个卷积层进行计算。每一个block都包含两个3
×
3大小的卷积,采用的通道数分别是64、128、25本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于相似关系知识蒸馏的模型轻量化方法,其特征在于,包括如下步骤:将样本数据分别输入教师网络和学生网络,获得所述教师网络输出的获得教师特征以及学生网络输出的学生特征;计算教师特征和学生特征之间的相似性,并基于所述相似性确定注意知识迁移函数;基于样本数据与学生特征间的损失确定子损失函数;将所述子损失函数和加权后的注意知识迁移函数之和作为学生网络训练的整体损失函数。2.根据权利要求1所述的基于相似关系知识蒸馏的模型轻量化方法,其特征在于,所述教师网络采用Resnet50,所述学生网络采用Resnet18。3.根据权利要求2所述的基于相似关系知识蒸馏的模型轻量化方法,其特征在于,所述教师网络和学生网络均采用全局平均池化和通道池化对每层提取的特征进行处理。4.根据权利要求1所述的基于相似关系知识蒸馏的模型轻量化方法,其特征在于,所述计算教师特征和学生特征之间的相似性,并基于所述相似性确定注意知识迁移函数,具体包括如下步骤:采用多头注意力机制计算教师特征和学生特征之间的相似性,获取相似性最大的教师特征向量和相似性最大的学生特征向量;通过所述相似性最高的教师特征和相似性最高的学生特征确定注意知识迁移函数。5.根据权利要求1所述的基于相似关系知识蒸馏的模型轻量化方法,其特征在于,所述子损失函数为交叉熵损失函数。6.根据权利要求1所述的基于相似关系知识蒸馏的模型轻量化方法,其特征在于,所述整体损失函数,公式为:L
...

【专利技术属性】
技术研发人员:马培龙
申请(专利权)人:佳源科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1