基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备技术

技术编号：28422447 阅读：15 留言：0更新日期：2021-05-11 18:30

本发明专利技术提供了一种基于注意力机制的mobilenet‑v1知识蒸馏方法、存储器及终端设备，其中，包括：分别选择复杂模型WRN‑50‑8以及简单模型mobilenet‑v对应的特定中间层，用以进行注意图的知识转移；处理得到复杂模型和简单模型的中间层所对应的注意力图之间的损失，记为损失值一；处理获得复杂模型和简单模型的Logit层之间的KL散度；处理获得简单模型的交叉熵损失，记为损失值二；根据损失值一、KL散度及损失值二处理得到总损失；损失值一、RL散度、损失值二以及总损失用以简单模型的参数的计算。其技术方案的有益效果在于，与现有其他蒸馏方式相比，大幅提高mobilenet‑v1学生网络的识别精度和准确率，并可以将其部署在算力有限的设备。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备
本专利技术涉及深度学习模型压缩
，尤其涉及基于注意力机制的mobilenet-v1知识蒸馏方法、存储器及终端设备。
技术介绍
知识蒸馏是将复杂模型(教师网络)中的暗知识(darkknowledge)迁移到简单模型(学生网络)中去，一般来说，复杂模型具有强大的能力和表现，而简单模型则更为紧凑。通过知识蒸馏，希望简单模型能尽可能逼近亦或是超过复杂模型，从而用更少的复杂度来获得类似的预测效果。(GeoffreyHinton,OriolVinyals,JeffDean.“DistillingtheKnowledgeinaNeuralNetwork”InNIPS,2014)首次提出了知识蒸馏的概念，通过引入教师网络的软目标(softtargets)以诱导学生网络的训练。近些年来出现了许多知识蒸馏的方法，而不同的方法对于网络中需要转移的暗知识定义也各不相同。(SergeyZagoruyko,NikosKomodakis.“PAYINGMOREATTENTIONTOATTENTION:IMPROVINGTHEPERFORMANCEOFCONVOLUTIONALNEURALNETWORKSVIAATTENTIONTRANSFER”InICLR,2017)首次提出利用注意力机制对WRN(WideResNet)网络进行蒸馏。由于WRN网络结构依然很大，不适合部署在计算能力有限的设备(比如移动终端)。
技术实现思路
针对现有的...

【技术保护点】
1.一种基于注意力机制的mobilenet-v1知识蒸馏方法，其特征在于，包括：/n分别选择复杂模型以及简单模型对应的特定中间层，用以进行注意图的知识转移；/n分别处理得到所述复杂模型和所述简单模型的所述特定中间层所对应的注意力图之间的损失并记为第一损失值，根据所述第一损失值对所述简单模型中的所述特定中间层进行更新；/n分别处理获得所述复杂模型和所述简单模型的Logit层的KL散度；/n处理获得所述简单模型的交叉熵损失，记为损失值二；/n根据所述损失值一、所述KL散度及所述损失值二处理得到总损失；/n所述损失值一、所述RL散度、所述损失值二以及所述总损失用以所述简单模型的参数的计算。/n

【技术特征摘要】
1.一种基于注意力机制的mobilenet-v1知识蒸馏方法，其特征在于，包括：
分别选择复杂模型以及简单模型对应的特定中间层，用以进行注意图的知识转移；
分别处理得到所述复杂模型和所述简单模型的所述特定中间层所对应的注意力图之间的损失并记为第一损失值，根据所述第一损失值对所述简单模型中的所述特定中间层进行更新；
分别处理获得所述复杂模型和所述简单模型的Logit层的KL散度；
处理获得所述简单模型的交叉熵损失，记为损失值二；
根据所述损失值一、所述KL散度及所述损失值二处理得到总损失；
所述损失值一、所述RL散度、所述损失值二以及所述总损失用以所述简单模型的参数的计算。

2.根据权利1所述的方法，其特征在于，所述进行注意图的知识转移方法包括：
从所述复杂模型的结构中选择预定数量的中间层输出作为计算注意力图的中间层特征图，记为中间特征图一；
从所述简单模型的结构中选择预定数量的中间层输出作为计算注意力图的中间层特征图，记为中间特征图二；
将所述中间特征图一的知识转移给所述中间特征图二。

3.根据权利1所述的方法，其特征在于，处理得到所述简单模型或所述复杂模型的中间层对应的注意力图的方法如下式所示：
设张量A∈RC*H*W为所述的简单模型或复杂模型的某个中间层特征图，即特征图A有C个通道，每个通道为H*W的二维矩阵，则注意力图按照如下公式计算：

其中，注意力图计算结果Q∈RH*W，A(i，：，：)表示第i个通道的H*W二维矩阵。

4.根据权利1所述的方法，其特征在于，处理得到所述复杂模型和所述简单模型的中间层所对应的注意力图之间的损失的方法如下式所示：

其中，表示复杂模型WRN-50-8的第...

【专利技术属性】
技术研发人员：黄明飞，姚宏贵，梁维斌，王昊，
申请(专利权)人：开放智能机器上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人