基于交叉注意力蒸馏Transformer的花粉图像分类方法技术

技术编号:31745963 阅读:23 留言:0更新日期:2022-01-05 16:25
一种基于交叉注意力蒸馏Transformer的花粉图像分类方法,利用两个网络训练数据,两个网络互为对方的老师;网络一将图片编码为图片令牌,并加入Class令牌和蒸馏令牌;利用再注意力Transformer模块计算所有令牌的全局关联性;采用动态令牌稀疏化模块修剪掉冗余图片令牌,提高吞吐量;网络二将图片通过卷积运算编码为图片令牌,增加对图片令牌内部信息的建模,并加入Class令牌和蒸馏令牌;利用卷积投影以动态的卷积注意力机制来实现图片令牌的局部和全局像素信息的融合;本发明专利技术使两个网络通过各自的蒸馏令牌在蒸馏损失部分与老师网络的输出空间进行交互,学习老师网络的特征空间表达,最后输出分类结果。最后输出分类结果。最后输出分类结果。

【技术实现步骤摘要】
基于交叉注意力蒸馏Transformer的花粉图像分类方法


[0001]本专利技术属于计算机视觉
,特别涉及一种基于交叉注意力蒸馏Transformer的花粉图像分类方法。

技术介绍

[0002]自从AlexNet网络在2012年的ImageNet图像分类比赛中获得冠军后,深度学习大热,随后相继出现许多优秀的CNN模型,如VGG

16,GoogleNet,ResNet。随着CNN网络的大放异彩,以卷积神经网络为主要模型的深度学习方法成为处理计算机视觉任务的主流。
[0003]Transformer是谷歌团队在2017年发表论文《Attention is All You Need》中提出的针对自然语言处理(NLP)的模型,它以可并行化计算和建立全局依赖关系等优点迅速成为NLP领域的首选模型。然而在计算机视觉中,由LeCun,Krizhevsky等人相继提出的卷积神经网络模型任然占据主导位置,受到Transformer在NLP领域中获得的巨大成功,研究者开始把目光投入计算机视觉领域,2020年,Facebook A本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于交叉注意力蒸馏Transformer的花粉图像分类方法,采用网络一和网络二的架构实现,其特征在于:所述网络一将输入花粉图片进行分割,然后线性投影为图片令牌,并加入一个蒸馏令牌和一个Class令牌得到令牌序列一,利用再注意力transformer模块的再注意力机制消除令牌序列一中的注意力雷同问题,再利用动态令牌稀疏化模块的动态令牌稀疏化去除冗余令牌,多次经过再注意力Transformer模块和动态令牌稀疏化模块后,输出令牌序列二,将令牌序列二中的Class令牌和蒸馏令牌加权进行预测分类;所述网络二将输入花粉图片进行分割,然后卷积编码为图片令牌,并加入一个蒸馏令牌和一个Class令牌得到令牌序列三,利用卷积Transformer模块的卷积注意力机制实现局部感受野,并共享卷积权重,利用卷积令牌编码模块减少令牌数量,同时增加令牌宽度,多次经过卷积Transformer模块和卷积令牌编码模块后,输出得到令牌序列四,将得到令牌序列四中的Class令牌和蒸馏令牌加权进行预测分类;所述网络一和网络二中,蒸馏令牌和Class令牌均与图片令牌进行注意力运算并且输出概率值,取网络一、网络二的最大准确率作为最终预测分类结果;所述网络一和网络二的损失函数组成交叉注意力蒸馏模块,交叉注意力蒸馏模块同时训练网络一和网络二,网络一和网络二互为对方的老师和学生,通过各自的蒸馏令牌以蒸馏损失的目标输出方式与老师网络进行交互。2.根据权利要求1所述基于交叉注意力蒸馏Transformer的花粉图像分类方法,其特征在于,所述网络一由Transformer编码器、再注意力transformer模块和动态令牌稀疏化模块组成,所述再注意力transformer模块和动态令牌稀疏化模块均有多个,依次交替设置,且再注意力transformer模块的数量较动态令牌稀疏化模块的数量多一个,所述再注意力transformer模块由再注意力模块和前馈网络组成。3.根据权利要求2所述基于交叉注意力蒸馏Transformer的花粉图像分类方法,其特征在于,所述Transformer编码器将输入花粉图片重新划分为2D图像块序列其中H,W是输入图像的长和宽,C是通道数,是图像集合,N是产生的图像块个数,产生的图像块即所述补丁,补丁的维度大小是(P2·
C),(P,P)是每个补丁的分辨率,C是每个补丁的维数,对每个补丁使用可训练的线性投影得到(N,D)的二维图片令牌向量,线性投影后的补丁即为图片令牌,然后初始化D维的Class令牌和D维的蒸馏令牌,加入图片令牌序列;所述Class令牌和蒸馏令牌是初始化的可学习的嵌入向量,Class令牌和蒸馏令牌通过与图片令牌进行注意力运算,对图片令牌之间的全局关系进行建模,并且融合所有图片令牌的信息,最终与分类器相连进行类别预测。4.根据权利要求3所述基于交叉注意力蒸馏Transformer的花粉图像分类方法,其特征在于,使用位置编码加入令牌序列,所述位置编码是初始化的与输入令牌序列相同维度的可训练变量,通过位置编码对无序的令牌进行编码排序,以保留每个令牌的绝对或相对位置信息。5.根据权利要求2或3所述基于交叉注意力蒸馏Transformer的花粉图像分类方法,其特征在于,所述再注意力模块建立在多头注意力机制的基础上,注意力机制将每个输入令
牌线性投影为可训练的查询Q、键K、值V三组值,通过所有令牌的K对Q进行点积生成注意力图,并且除以缩放因子经过Softmax激活函数以获得V的权重输出到下一个再注意力模块,该注意力图表示每个再注意Transformer模块内所有令牌之间的全局相关性;多头注意力机制利用不同的权值矩阵将每个输入令牌投影到h个不同的子空间,每个子空间并行地执行注意力机制,将它们的输出值连接起来再次进行投影,得到再注意力模块的输出,再注意力机制通过定义一个端到端可训练的变换矩阵使用变换矩阵动态聚合同一再注意力Transformer模块中不同头部之间的注意力映射图,重新映射出新的注意力图。6.根据权利要求2或3所述基于交叉注意力蒸馏Transformer的花粉图像分类方法...

【专利技术属性】
技术研发人员:石宝段凯博杨传颖马少瑛黄林李林张心月田宇周昊
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1