当前位置: 首页 > 专利查询>同济大学专利>正文

基于双特长教师模型知识融合的图像分类方法及存储介质技术

技术编号:28474819 阅读:31 留言:0更新日期:2021-05-15 21:43
本发明专利技术涉及一种基于双特长教师模型知识融合的图像分类方法及存储介质,其中图像分类方法包括:步骤1:通过调整训练数据分布分别对两个特长教师模型进行训练,获得双特长教师模型;步骤2:对于双教师模型的不同层特征采用基于注意力转移的逐层融合方式进行融合,训练时分别对教师模型和学生模型计算注意力特征图,通过注意力特征损失函数对学生模型的特征层进行约束;步骤3:采用选择性知识传递机制对教师模型特征进行选择性传递;步骤4:对双教师模型进行融合训练,获取目标模型;步骤5:使用步骤4获取的目标模型进行图像分类。与现有技术相比,本发明专利技术具有目标模型获取速度快、学生模型性能好等优点。型性能好等优点。型性能好等优点。

【技术实现步骤摘要】
基于双特长教师模型知识融合的图像分类方法及存储介质


[0001]本专利技术涉及图像分类方法
,尤其是涉及一种基于双特长教师模型知识融合的图像分类方法及存储介质。

技术介绍

[0002]知识融合是由知识蒸馏衍生出的新的研究方向。传统的知识蒸馏通过教师模型

学生模型的训练范式,达到提升学生模型的训练精度、加快其收敛速度、压缩模型体积的目的。不同于传统的知识蒸馏,知识融合的研究重点在于多教师模型和学生模型之间多对一的知识传递,即将多个能力各异的教师模型相融合,得到一个兼具所有源模型任务能力的目标模型。
[0003]作为一个新兴方向,知识融合的相关研究还不广泛。目前,对于知识融合方法的研究主要集中于不同任务下的教师模型融合(即多个教师模型分别负责不同类型的任务,如图像分类、语义分割、平面法向量估计等),或者异构教师模型的融合(即多个教师模型负责同一个任务但结构各异),而对于特长教师模型融合方法则鲜有探究。所述特长教师模型是指:针对某一任务而言,存在多个可用的教师模型,而不同的教师模型受训练数据、训练方式等影响,其性能存在差异,即特长教师模型。图像分类是知识融合技术在实际应用落地的一个典型场景与领域。以图像分类任务为例,对于给定的图像分类任务,假设类别及类别数目确定,存在多个教师模型能够完成该分类任务,但是各个教师模型在不同的类别上分别存在各自擅长的分类领域,展示出性能上的优异,例如教师模型1更擅长猫分类,而教师模型2更擅长狗分类。
[0004]中国专利CN112199535A中公开了一种基于集成知识蒸馏的图像分类方法,该方法虽然使得学生模型从教师模型中学习知识变得简单,在一定程度上提高了学生模型的性能,但是该方法中的教师模型无差异,仅根据教师模型精度调节知识传递权重过于简单,并且获取目标模型时所需的时间较长,图像分类的精度也较低。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种目标模型获取速度快、性能好的基于双特长教师模型知识融合的图像分类方法及存储介质。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]一种基于双特长教师模型知识融合的图像分类方法,所述的图像分类方法包括:
[0008]步骤1:通过调整训练数据分布分别对两个特长教师模型进行训练,获得双特长教师模型;
[0009]步骤2:对于双教师模型的不同层特征采用基于注意力转移的逐层融合方式进行融合,训练时分别对教师模型和学生模型计算注意力特征图,通过注意力特征损失函数对学生模型的特征层进行约束;
[0010]步骤3:采用选择性知识传递机制对教师模型特征进行选择性传递;
[0011]步骤4:对双教师模型进行融合训练,获取目标模型;
[0012]步骤5:使用步骤4获取的目标模型进行图像分类。
[0013]优选地,所述的步骤1具体为:
[0014]按照类别信息将训练数据集均等且分为第一子数据集和第二子数据集,采样第一子数据集中的一半数据连同第二子数据集作为第一特长教师模型的训练数据;采样第二子数据集中的一半数据连同第一子数据集作为第二特长教师模型的训练数据;使用对应的训练数据分别对第一特长教师模型和第二特长教师模型进行训练。
[0015]更加优选地,所述的第一特长教师模型和第二特长教师模型均采用卷积神经网络的一般训练方式进行训练。
[0016]优选地,所述的步骤2具体为:
[0017]基于注意力转移的逐层融合方式将教师模型的特征层分组,每一组获得的特征组计算注意力特征图,通过注意力特征图计算注意力特征损失函数,通过注意力特征损失函数对学生模型的特征层进行约束;
[0018]注意力特征图的计算方法为:
[0019][0020]其中,C为类别数,A
i
为对应特征层的注意力特征图。
[0021]更加优选地,所述的注意力特征图的损失函数具体为:
[0022][0023]其中,为学生模型的注意力特征图,为教师模型的注意力特征图,p为范数。
[0024]优选地,所述的步骤3具体为:
[0025]采用选择性知识传递机制,基于信息熵或几何中心对不同教师模型的特征进行加权,实现选择性知识传递;
[0026]所述的知识传递机制的选取方法为:
[0027]计算两种不同知识传递机制下的学生模型精度和收敛速度,选择模型精度高、收敛速度快的知识传递机制。
[0028]更加优选地,所述的基于信息熵的选择性知识传递机制具体为:
[0029]通过不同教师模型的Logits输出进行统一编码和信息熵计算,经过编码后的Logits信息熵计算方法为:
[0030][0031]其中,C为类别数,p(x
i
)为样本x
i
对应其真实类别上的Logits输出值;
[0032]然后使用信息熵对每个源模型特征的表征能力进行量化评价,并作为两个源模型的融合权重。
[0033]更加优选地,所述的基于几何中心的选择性知识传递机制具体为:
[0034]利用特征与其类别几何中心的距离Dist
C
量化评价不同源模型特征的表征效果,
实现共享任务域的选择性融合;
[0035]Dist
C
的计算方法为:
[0036]Dist
c
=||F
i

C
GM
||2[0037][0038]其中,F
i
为样本对应的特征,C
GM
为源模型的类中心,N为C类别下的样本数量。
[0039]优选地,所述的步骤4具体为:
[0040]采用双教师对比损失函数对双教师模型进行融合训练,该对比损失函数对于分类正确的样本,最小化其损失项,使教师模型与学生模型的特征接近,反之,若样本分类错误,则加以惩罚,使教师模型与学生模型的特征相互远离;
[0041]所述的对比损失函数具体为:
[0042][0043]其中,y
i
为第i个样本的分类结果,margin为损失正则阈值。
[0044]一种存储介质,所述的存储介质存储有上述任一项所述的基于双特长教师模型知识融合的图像分类方法。
[0045]与现有技术相比,本专利技术具有以下有益效果:
[0046]目标模型获取速度快,学生模型体量小、性能好:本专利技术中的图像分类方法以双特长教师模型为基础获取符合要求的学生模型,弥补了知识融合研究领域中多模型融合、任务域不对齐条件下的研究空白,相比于现有技术中单教师知识蒸馏的融合方式,能够更充分快速的发掘教师模型中所包含的知识,加快学生模型的获取速度,压缩模型体积的同时,进一步提高学生模型的性能,在CIFAR100数据集上学生模型(WRN

16

2)的图像分类精度可达74.31%,超过了普通单教师知识蒸馏所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双特长教师模型知识融合的图像分类方法,其特征在于,所述的图像分类方法包括:步骤1:通过调整训练数据分布分别对两个特长教师模型进行训练,获得双特长教师模型;步骤2:对于双教师模型的不同层特征采用基于注意力转移的逐层融合方式进行融合,训练时分别对教师模型和学生模型计算注意力特征图,通过注意力特征损失函数对学生模型的特征层进行约束;步骤3:采用选择性知识传递机制对教师模型特征进行选择性传递;步骤4:对双教师模型进行融合训练,获取目标模型;步骤5:使用步骤4获取的目标模型进行图像分类。2.根据权利要求1所述的一种基于双特长教师模型知识融合的图像分类方法,其特征在于,所述的步骤1具体为:按照类别信息将训练数据集均等且分为第一子数据集和第二子数据集,采样第一子数据集中的一半数据连同第二子数据集作为第一特长教师模型的训练数据;采样第二子数据集中的一半数据连同第一子数据集作为第二特长教师模型的训练数据;使用对应的训练数据分别对第一特长教师模型和第二特长教师模型进行训练。3.根据权利要求2所述的一种基于双特长教师模型知识融合的图像分类方法,其特征在于,所述的第一特长教师模型和第二特长教师模型均采用卷积神经网络的一般训练方式进行训练。4.根据权利要求1所述的一种基于双特长教师模型知识融合的图像分类方法,其特征在于,所述的步骤2具体为:基于注意力转移的逐层融合方式将教师模型的特征层分组,每一组获得的特征组计算注意力特征图,通过注意力特征图计算注意力特征损失函数,通过注意力特征损失函数对学生模型的特征层进行约束;注意力特征图的计算方法为:F:R
C
×
H
×
W

R
H
×
W
其中,C为类别数,A
i
为对应特征层的注意力特征图。5.根据权利要求4所述的一种基于双特长教师模型知识融合的图像分类方法,其特征在于,所述的注意力特征图的损失函数具体为:其中,为学生模型的注意力特征图,为教师模型的注意力特征图,p为范数。6.根据权利要求1所述的一种基于双特长教师模型知识融合的...

【专利技术属性】
技术研发人员:尤鸣宇王伟昊周洪钧
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1