System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用图像识别的多教师蒸馏域知识记忆与迁移方法技术_技高网

一种用图像识别的多教师蒸馏域知识记忆与迁移方法技术

技术编号:41090649 阅读:3 留言:0更新日期:2024-04-25 13:51
该发明专利技术公开了一种用图像识别的多教师蒸馏域知识记忆与迁移方法,属于图像识别领域。本发明专利技术通过三个策略来有效地寻找多个教师:权重重排列、特征摄动、和多样性正则。为减少多个教师在推理时间以及存储上的消耗,每个教师被表达为原始模型的一个小分支。最终,源域上的知识通过多个模型进行记忆,同时通过将源域上的多模型作为教师使用蒸馏损失将知识迁移到目标域上。本发明专利技术所提出的基于多教师蒸馏的域知识记忆与迁移方法,能够从多方位对源域知识进行高效地记忆,并通过多教师蒸馏损失有效地将知识迁移到目标域上。同时,以分支的结构表达多个教师能够显著地降低推理时间以及存储上的消耗。

【技术实现步骤摘要】

本专利技术属于图像识别领域,特别是在图像分类任务中一种基于多教师蒸馏(multi-teacher distillation)的域知识记忆与迁移(memory and transfer)方法。


技术介绍

1、随着深度学习技术的发展和普及,人们日常生活中涌现了大量的人工智能的应用。日常生活场景处于动态变化中,这要求基于深度学习的模型不断地记忆一个图像域(image domain)知识的同时还需要不断地将知识迁移到新的图像域上。然而,现有的深度学习模型在向新的图像域进行知识迁移时通常面临着语义鸿沟、特征差异、模型泛化能力弱等问题。为提升深度学习模型对源图像域知识的有效记忆,促进向目标图像域的知识迁移,相比现有方法,本专利技术从多教师蒸馏的技术路线出发对域的知识进行记忆与迁移。

2、蒸馏技术本质上是一种函数正则性的方法,约束教师模型与学生模型的输入输出映射关系保持不变,是目前从源域到目标域知识迁移,提升模型在目标域上泛化能力的有效策略。然而现有方法大多采用了从单一教师蒸馏知识的策略,忽视了多教师能够记忆更加多样的源域知识并提高模型对目标域的兼容性的能力。尽管现有方法已有采用多教师蒸馏的思想,如通过在新任务上进行独立的训练以获得一个额外的教师,并最大化学生模型与另外两个教师模型间的互信息来进行知识迁移,但是这种做法会带来极大的时间与存储上的消耗。因此,基于多教师蒸馏的知识记忆与迁移需解决两个问题:如何有效地寻找多个教师以及如何高效地表示多个教师。


技术实现思路

1、为对源域知识进行记忆,本专利技术通过权重排列、特征摄动、和多样性正则来有效地寻找多个教师,对源域上的知识进行多方位的表达。为将知识迁移到目标域上,通过知识蒸馏的方式将知识从源域迁移到目标域上。为减少多个教师的推理时间以及存储上的消耗,每个教师都表达为模型的小的子分支。

2、本专利技术通过三个策略来有效地寻找多个教师:权重重排列、特征摄动、和多样性正则。为减少多个教师在推理时间以及存储上的消耗,每个教师被表达为原始模型的一个小分支。最终,源域上的知识通过多个模型进行记忆,同时通过将源域上的多模型作为教师使用蒸馏损失将知识迁移到目标域上。因而本专利技术技术方案为:一种用图像识别的多教师蒸馏域知识记忆与迁移方法,该方法包括:

3、步骤1:采用源域中的样本图像训练一个基础图像识别模型,所述基础图像识别模型包括:依次串联的l层卷积层和分类器;

4、步骤2:将训练好的基础图像识别模型的最后m层卷积层和分类器复制n-1次,得到n-1个教师模型;这n-1个教师模型的输入都为基础模型中第l-m层卷积层的输出;

5、步骤3:对步骤2获得的n-1个教师模型中的各层卷积层参数进行随机重排列,得到n-1个新教师模型;

6、步骤4:对每个新教师模型引入一个摄动,使每个新教师模型的输入产生改变;

7、步骤5:从全体源域样本图像中为每个类别随机采样相同数量的k个样本,用于构建源域的类别平衡子集;

8、步骤6:在类别平衡子集上使用损失对各教师模型进行优化;损失包括:多样性正则损失分类损失迁移损失

9、步骤7:在目标域上使用蒸馏损失将多教师知识蒸馏迁移到基础图像识别模型上,得到新图像识别模型;

10、步骤8:对新图像识别模型进行微调训练;

11、步骤9:采用微调后新图像识别模型进行新图像的识别。

12、进一步的,所述步骤3中各层卷积层参数进行重排列的方法为:

13、

14、其中,w′l表示从排列后的第l层卷积层参数,wl表示第l层卷积层参数,pl表示第l层的重排列矩阵,表示第l-1层的重排列矩阵的转置。

15、进一步的,所述步骤4的具体方法为:

16、

17、其中,xi表示第i个新教师模型的输入,xl-m表示基础模型中第l-m层卷积层的输出,为正态分布,α为放缩系数,δi为摄动因子。

18、进一步的,所述步骤6中多样性正则损失分类损失迁移损失的计算方法为:

19、

20、

21、

22、其中,表示n个新教师模型的2组合数,xi,l表示第i个教师对样本x的嵌入,xj,l表示第j个教师对样本x的嵌入,ce(.)为交叉熵损失,表示基础模型的输出,表示微调前模型的输出,y表示样本x对应的正确标签,表示第i个教师的输出;

23、为教师模型的平均输出。

24、进一步的,所述步骤7中蒸馏损失计算方法为:

25、

26、其中,表示当前模型与多教师模型在目标域上的kl散度,x来源于目标域,为目标域上的图像识别模型。

27、本专利技术所提出的基于多教师蒸馏的域知识记忆与迁移方法,能够从多方位对源域知识进行高效地记忆,并通过多教师蒸馏损失有效地将知识迁移到目标域上。同时,以分支的结构表达多个教师能够显著地降低推理时间以及存储上的消耗。

本文档来自技高网...

【技术保护点】

1.一种用图像识别的多教师蒸馏域知识记忆与迁移方法,该方法包括:

2.如权利要求1所述的一种用图像识别的多教师蒸馏域知识记忆与迁移方法,其特征在于,所述步骤3中各层卷积层参数进行重排列的方法为:

3.如权利要求1所述的一种用图像识别的多教师蒸馏域知识记忆与迁移方法,其特征在于,所述步骤4的具体方法为:

4.如权利要求1所述的一种用图像识别的多教师蒸馏域知识记忆与迁移方法,其特征在于,所述步骤6中多样性正则损失分类损失迁移损失的计算方法为:

5.如权利要求1所述的一种用图像识别的多教师蒸馏域知识记忆与迁移方法,其特征在于,所述步骤7中蒸馏损失计算方法为:

【技术特征摘要】

1.一种用图像识别的多教师蒸馏域知识记忆与迁移方法,该方法包括:

2.如权利要求1所述的一种用图像识别的多教师蒸馏域知识记忆与迁移方法,其特征在于,所述步骤3中各层卷积层参数进行重排列的方法为:

3.如权利要求1所述的一种用图像识别的多教师蒸馏域知识记忆与迁移方法,其特征在于,所...

【专利技术属性】
技术研发人员:李宏亮问海涛潘力立戴禹邱荷茜王岚晓吴庆波许林峰
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1