System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于ViT的类内、类间相似度的细粒度图像分类方法及系统技术方案_技高网

基于ViT的类内、类间相似度的细粒度图像分类方法及系统技术方案

技术编号:40213172 阅读:8 留言:0更新日期:2024-02-02 22:22
本发明专利技术公开了基于ViT的类内、类间相似度的细粒度图像分类方法及系统。细粒度图像分类系统包括特征提取模块、相似性学习模块和主分类器网络。本发明专利技术利用特征提取模块有效挖掘判别块的空间上下文信息和多尺度融合信息,利用同类图像之间的相似性训练相似性学习模块,给判别性区域分配较高的权重,给噪声分配较低的权重,将相似度权重计算模块输出的权重作用于主分类器网络的分类损失,有效提取图像特征并提高了识别的准确度。

【技术实现步骤摘要】

本专利技术涉及图像识别,具体而言,涉及基于vit的类内、类间相似度的细粒度图像分类方法及系统。


技术介绍

1、细粒度图像分类旨在对某种基础类别的子类别进行细分,由于细粒度数据集具有以下特征:(1)类间差异小:由于图像隶属一个大类,不同类别的图像也可能具有相似的特征;(2)类内差异大:由于图像采集过程种存在着光照、遮挡、角度等因素,相同类别的图像之间也可能有较大的视觉差异。这两种情况导致细粒度图像分类很长时间内被认为是一种极具挑战性的任务。

2、目前,细粒度图像分类的方法主要分为两类:基于定位的方法和基于注意力的方法。

3、基于定位的方法通常先定位判别性区域再学习特征并基于此进行分类。早期通常需要人工手动标注或使用目标检测网络或语义分割网络等进行定位,这些方法不仅不够准确,而且数据标注的成本与网络结构的成本高昂,不利于其在实际生活中的应用及推广。因此,将弱监督方法引入细粒度图像分类领域一直是研究的重点,基于定位的方法通过调整网络结构或使用一定的特征融合方法,仅使用图像级标签训练就能实现目标定位。基于注意力的方法则直接定位出图像中的判别性区域。

4、近年来,带有自注意力机制的transformer在计算机视觉领域大放异彩,在目标检测、目标分割等领域应用广泛。vision transformer(vit)是第一个完全基于transformer的细粒度图像分类架构,能够显著提高识别准确率。但是vit利用位置编码将图像的空间信息嵌入到输入序列中,不够灵活且不能很好捕捉特征的空间上下文信息;而且它的自注意力机制主要关注全局特征信息,缺乏对局部特征信息的感知能力。

5、参考文献:

6、[1]sun h,he x,peng y.sim-trans:structure information modelingtransformer for fine-grained visual categorization[j].2022.


技术实现思路

1、为了解决现有细粒度图像识别方法的不足,本专利技术提供了基于vit的类内、类间相似度的细粒度图像分类方法及系统。引入类内相似度选择相似度高且具有辨别性的类内图像构造高质量数据集,缓解类内特征易被图像中的无关特征(例如天空、草坪等)干扰的问题;引入类间相似度降低模型预测的确信度,缓解网络的过拟合问题;同时利用vit的全局视野,促使网络学习更强力的细粒度特征表示,具备良好的分类效果。

2、基于vit的类内、类间相似度的细粒度图像分类系统,包括特征提取模块、相似性学习模块和主分类器网络。所述的特征提取模块用于捕获空间上下文信息和多尺度信息;所述的相似性学习模块根据特征提取模块获得的特征图获取图像对相似度,构建高质量数据集,然后获取图像与构建的高质量数据集中每一类图像的相似度权重;所述的主分类器网络用于最终的图像分类,在主分类器网络的训练过程中会将相似度权重计算模块获取的相似度权重与分类损失加权得到的混合损失函数监督模型的训练。

3、进一步的,所述特征提取模块包括:基于vit的骨干网络、结构信息学习模块(sil)[1]和判别特征选择模块(ctsm)。

4、基于vit的骨干网络通过自注意力机制获取全局感受野,包括:图像划分模块、嵌入层、位置编码模块和十层transformer编码器。图像划分模块将输入的图像划分为固定数量、固定大小的非重叠图像块;将每个图像块转换为固定维度的向量后通过嵌入层后添加了一个class token,即可学习的嵌入向量,用于分类;然后通过位置编码模块将每个图像块的位置信息编码添加到对应的向量中;每层transformer编码器包括多头自注意力层和前馈神经网络层,多层transformer编码器用于对位置编码模块处理后的图像块进行特征提取和编码以获取图像特征;

5、利用结构信息学习模块sil将图像块的空间上下文信息融入到基于vit的骨干网络中,步骤如下:

6、每一层transformer编码器都会利用多头自注意力层计算出图像块和classtoken之间的注意力权重,将图像经过基于vit的骨干网络中最后三层transformer编码器中的多头自注意力层输出的注意力权重特征分别输入结构信息学习模块sil,再将经过结构信息学习模块sil输出的参考图像块的特征添加到对应的class token中。结构信息学习模块sil将空间信息引入到了基于vit的骨干网络中。结构信息学习模块sil的具体阐述如下:

7、结构信息学习模块sil首先需要定位对象范围,将输入的注意力权重特征与该注意力权重的转置进行矩阵相乘生成一个边权重矩阵adj,利用所有边权重的平均值作为阈值并将低于该阈值的边权重设为0,以过滤掉不重要的图像块;将具有最高边权重的图像块设置为参考图像块,即最具辨别力的图像块。然后通过极坐标测量参考图像块与其他图像块之间的空间关系s,将这些空间信息以及上述获取的边权重输入到图卷积神经网络gcn,将通过图卷积神经网络gcn得到的图像特征作为该模块的输出。图卷积神经网络gcn由两层图卷积构成,公式如下:

8、s=σ(adj×σ(adj×s×w1×w2)

9、其中,w1和w2是可学习的参数,σ是激活函数。

10、总体而言,结构信息学习模块sil能够将对象空间信息融入到基于vit的骨干网络,从而实现准确的细粒度分类。

11、由于vit专注于捕获全局特征,缺少多层次的特征融合,局部特征易被忽略,同时由于class token在vit中起着至关重要的作用,它能够学习到其他图像块中的分类相关信息,提出了判别特征选择模块ctsm。将基于vit的骨干网络的前九层transformer编码器输出的class token作为判别特征选择模块ctsm的输入,可表示为cls=

12、[cls(1),...,cls(l),...,cls(9)],cls(l)即第l层transformer编码器输出的classtoken。然后将判别特征选择模块ctsm输出的最终判别特征添加到基于vit的骨干网络的第十层transformer编码器输出的class token,生成最终的图像特征表示。

13、具体而言,判别特征选择模块ctsm包括一层transformer编码器,由多头自注意力层和前馈神经网络层组成,通过计算获取的cls(9)与其他class token之间的注意力权重,能很好集成其他class token的浅层、中层以及深层特征,生成最终的判别特征。

14、进一步的,所述将图片输入特征提取模块获取特征图的过程包括:将h*w的图像输入特征提取模块,首先经过基于vit的骨干网络的图像划分模块,得到个图像块,p是图像块的大小(即长和宽),将其映射到一个特征向量上,通过嵌入层新增一个可学习的嵌入向量;然后通过位置编码模块为每个向量添加位置编码信息;之后输入到十层transformer编码器中,结构学习模块sil利用最后三层tr本文档来自技高网...

【技术保护点】

1.基于ViT的类内、类间相似度的细粒度图像分类系统,其特征在于,包括特征提取模块、相似性学习模块和主分类器网络;所述的特征提取模块用于捕获空间上下文信息和多尺度信息;所述的相似性学习模块根据特征提取模块获得的特征图获取图像对相似度,构建高质量数据集,然后获取图像与构建的高质量数据集中每一类图像的相似度权重;所述的主分类器网络用于最终的图像分类,在主分类器网络的训练过程中会将相似度权重计算模块获取的相似度权重与分类损失加权得到的混合损失函数监督模型的训练。

2.根据权利要求1所述的基于ViT的类内、类间相似度的细粒度图像分类系统,其特征在于,所述特征提取模块包括:基于ViT的骨干网络、结构信息学习模块SIL和判别特征选择模块CTSM;

3.根据权利要求2所述的基于ViT的类内、类间相似度的细粒度图像分类系统,其特征在于,所述将图片输入特征提取模块获取特征图的过程包括:将H*W的图像输入特征提取模块,首先经过基于ViT的骨干网络的图像划分模块,得到个图像块,P是图像块的大小,将其映射到一个特征向量上,通过嵌入层新增一个可学习的嵌入向量;然后通过位置编码模块为每个向量添加位置编码信息;之后输入到十层Transformer编码器中,结构学习模块SIL利用最后三层Transformer编码器的自注意力权重挖掘图像块间的空间上下文信息,并添加到最后三层Transformer编码器输出的class token中,判别特征选择模块CTSM则将每一层Transformer编码器输出的class token融合获取最终判别特征;最后将该最终判别特征添加到第十层Transformer编码器输出的class token中,获取最终图像特征表示。

4.根据权利要求1或2所述的基于ViT的类内、类间相似度的细粒度图像分类系统,其特征在于,所述相似性学习模块包括一个枚举层和一个全连接层;枚举层拼接由特征提取模块提取的每对图像特征,全连接层则为每个连接的特征对提取特征。

5.根据权利要求4所述的基于ViT的类内、类间相似度的细粒度图像分类系统,其特征在于,相似性学习模块与特征提取模块协同训练过程如下:首先将一批B张图片输入特征提取模块提取图像特征M×D,M为小批量个数,D为特征维数,经过枚举层将任意两张图像的特征拼接输出M2×2D,再经过一个全连接层获取每对图像的相似性特征M2×1,最后通过分类损失的二进制标签进行监督,得到每对图像属于同一类别的概率p,分类损失的公式如下:

6.根据权利要求5所述的基于ViT的类内、类间相似度的细粒度图像分类系统,其特征在于,相似性学习模块根据特征提取模块获得的特征图获取图像对相似度,用于构建高质量数据集,具体方法如下:将同类别的所有图片输入到训练好的相似性学习模块中,对于类别Ct有张图像,先计算图像之间的相似度矩阵矩阵中每个条目是使用第a张图像和第b张图像通过相似性学习模块计算得到的相似度,然后计算第t类中第a张图像和其他所有图像之间的平均相似度作为权值

7.根据权利要求6所述的基于ViT的类内、类间相似度的细粒度图像分类系统,其特征在于,所述获取图像与高质量数据集中每一类图像之间的相似度具体方法如下:

8.根据权利要求5-7任意一项所述的基于ViT的类内、类间相似度的细粒度图像分类系统,其特征在于,所述主分类器网络包括一个全连接层;

9.基于ViT的类内、类间相似度的细粒度图像分类方法,其特征在于,包括步骤如下:

...

【技术特征摘要】

1.基于vit的类内、类间相似度的细粒度图像分类系统,其特征在于,包括特征提取模块、相似性学习模块和主分类器网络;所述的特征提取模块用于捕获空间上下文信息和多尺度信息;所述的相似性学习模块根据特征提取模块获得的特征图获取图像对相似度,构建高质量数据集,然后获取图像与构建的高质量数据集中每一类图像的相似度权重;所述的主分类器网络用于最终的图像分类,在主分类器网络的训练过程中会将相似度权重计算模块获取的相似度权重与分类损失加权得到的混合损失函数监督模型的训练。

2.根据权利要求1所述的基于vit的类内、类间相似度的细粒度图像分类系统,其特征在于,所述特征提取模块包括:基于vit的骨干网络、结构信息学习模块sil和判别特征选择模块ctsm;

3.根据权利要求2所述的基于vit的类内、类间相似度的细粒度图像分类系统,其特征在于,所述将图片输入特征提取模块获取特征图的过程包括:将h*w的图像输入特征提取模块,首先经过基于vit的骨干网络的图像划分模块,得到个图像块,p是图像块的大小,将其映射到一个特征向量上,通过嵌入层新增一个可学习的嵌入向量;然后通过位置编码模块为每个向量添加位置编码信息;之后输入到十层transformer编码器中,结构学习模块sil利用最后三层transformer编码器的自注意力权重挖掘图像块间的空间上下文信息,并添加到最后三层transformer编码器输出的class token中,判别特征选择模块ctsm则将每一层transformer编码器输出的class token融合获取最终判别特征;最后将该最终判别特征添加到第十层transformer编码器输出的class token中,获取最终图像特征表示。

...

【专利技术属性】
技术研发人员:戴国骏郭紫俐周文晖曾凡昱杨政磊
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1