一种基于视觉特征约束的细粒度图像分类方法技术

技术编号:35773584 阅读:15 留言:0更新日期:2022-12-01 14:16
本发明专利技术公开了一种基于视觉特征约束的细粒度图像分类方法。该方法包括如下步骤:利用CLIP方法的预训练视觉特征编码器提取图片的中间特征约束细粒度图像分类模型提取的中间特征;利用CLIP方法的预训练文本特征编码器提取的文本特征监督约束细粒度图像分类的提取的图片特征;利用CLIP方法的预训练视觉特征编码器获取训练图片的激活图,将其作为掩码对训练图片进行掩码处理后再获取掩码图片的视觉特征,将掩码图片特征与普通的视觉特征组合后再进行分类。本方法利用CLIP方法的图片和文本特征编码器帮助细粒度图像分类模型更好地提取细粒度图片的视觉特征,从而帮助提高细粒度图像分类模型的分类准确率。图像分类模型的分类准确率。图像分类模型的分类准确率。

【技术实现步骤摘要】
一种基于视觉特征约束的细粒度图像分类方法


[0001]本专利技术属于计算机视觉技术,特别涉及一种基于视觉特征约束的细粒度图像分类方法。

技术介绍

[0002]自然语言处理中使用大量的未处理数据作为训练数据得到的预训练模型,可以适用于不同的下游任务。但是计算机视觉中大量的预训练模型只能适用于部分与训练数据集分布类似的数据集,无法和自然语言处理模型一样适用于多类型的下游任务。因此,研究人员提出CLIP(Contrastive Language

Image Pre

training)方法。该方法充分地利用互联网上可以轻易爬取搜集得到的大量成对的文本和图像数据,将文本作为图像的标签训练一个具有较强泛化能力,便于迁移到其他下游任务的模型。
[0003]CLIP方法的主要过程如下:首先通过50万条查询文本在搜索引擎中得到4亿张图片,然后通过视觉特征编码器和文本特征编码器分别提取图片和文本的特征,最后利用度量学习的方法训练配对的视觉特征编码器和文本特征编码器。CLIP方法最后可以获得能提取图片特征的视觉特征编码器和提取文本特征的文本特征编码器,并且两个编码器提取的特征在同一个特征空间中,可以通过对比得到相似度。当前有很多的下游任务采用CLIP方法,通过预训练的编码器的帮助提升性能,但还没有将CLIP方法应用在细粒度图片分类领域。细粒度图片分类数据集中对于每张图片都会有对应的文本描述,正好可以结合CLIP方法中训练得到的文本特征编码器提取文本特征帮助细粒度图片分类。通过对模型提取的视觉特征进行约束从而提高细粒度模型的准确率。

技术实现思路

[0004](一)要解决的技术问题
[0005]解决当前有很多的下游任务采用CLIP方法,通过预训练的编码器的帮助提升性能,但还没有将CLIP方法应用在细粒度图片分类领域的问题,提供了一种基于视觉特征约束的细粒度图像分类方法。
[0006](二)技术方案
[0007]本专利技术的目的在于利用CLIP方法中得到的视觉特征编码器和文本编码器帮助细粒度图像分类模型提升性能,提供一种基于视觉特征约束的细粒度图像分类方法,具体包括以下步骤:
[0008]步骤一:训练数据集的采集;
[0009]步骤二:对训练图片进行数据预处理和数据增广;
[0010]步骤三:采用CLIP方法中的ViT

B/16模型作为基础模型提取训练图片的视觉特征;
[0011]步骤四:利用CLIP方法中在大型数据集上预训练得到的ViT

B/16视觉特征编码器提取步骤三中训练图片的视觉特征,每一层编码器输出提取图片得到的中间特征;将这些
中间特征作为标准对步骤三中的ViT

B/16模型的中间特征进行约束,得到图片特征约束1;
[0012]步骤五:每张训练图片都有对应的描述性文本数据,利用CLIP方法中在大型数据集上预训练得到的transformer文本特征编码器提取步骤三中训练图片所对应的描述性文本数据得到文本特征;将这些文本特征作为标准对步骤三中模型得到的图片视觉特征向量进行约束,得到图片特征约束2;
[0013]步骤六:利用CLIP方法中在大型数据集上预训练得到的ViT

B/16视觉特征编码器获取训练图片的激活图(activation map),将激活图作为掩码对训练图片进行掩码处理;
[0014]步骤七:用步骤三的模型提取步骤六中掩码处理后的图片的视觉特征,得到掩码图片视觉特征;
[0015]步骤八:将步骤三和步骤七得到的普通视觉特征和掩码图片视觉特征进行组合后得到的图片特征作为训练图片的最终图片视觉特征;将最终图片视觉特征经过多层感知机后得到每一类的置信度,通过交叉熵损失函数进行分类损失的计算;
[0016]步骤九:将步骤四、步骤五和步骤八中的图片特征约束1、图片特征约束2和分类损失相加后得到任务的总损失;通过总损失训练步骤三中的ViT

B/16模型;
[0017]步骤十:测试阶段,将测试图片复制4份,将四份分别旋转一定的角度,再使用步骤九中训练完成的ViT

B/16模型对这四份测试图片分别进行预测,然后平均四份的输出结果,最终平均得分最高的类别就是测试图片的预测类别。
[0018]作为优选的技术方案,步骤一中,采用的数据集是Caltech

UCSD Birds

200

2011鸟类细分类数据集,该数据集包含200类鸟类的图片数据,共11788张图片,并且每张图片都有对应的一段描述性文本数据;取该数据集中的5994张图片作为训练数据集。
[0019]作为优选的技术方案,步骤二中,将图片缩放至统一的尺寸224
×
224的大小,然后利用随机剪裁、随机翻转、随机高斯模糊等数据增广方式提升训练图片的数量。
[0020]作为优选的技术方案,步骤三中的ViT

B/16模型的输入为将图片切成16
×
16大小的块,输出为图片的768维的视觉特征向量,最后经过一个多层感知机得到图的类别得分。
[0021]作为优选的技术方案,步骤四中,ViT

B/16模型共有12层,取预训练ViT

B/16模型的最后4、3、2层输出的中间特征作为图片特征约束1的约束特征;图片特征约束1的计算公式如下:
[0022]L1=Σ||f1‑
f2||2,
[0023]其中f1是步骤四中预训练模型提取的中间特征,f2是步骤三中模型的对应的中间特征。
[0024]作为优选的技术方案,步骤五中,transformer文本特征编码器提取得到的文本特征维度为768维;利用这个文本特征对步骤三中模型提取得到的图片视觉特征进行图片特征约束2;图片特征约束2的计算公式如下:
[0025]L2=||f
t

f
i
||2,
[0026]其中f
t
是步骤五中文本transformer特征编码器提取得到的文本特征,f
i
是步骤三中的模型提取的图片视觉特征。
[0027]作为优选的技术方案,步骤六中使用的预训练视觉特征编码器得到训练图片的激活图;利用激活图对训练图片进行掩码处理;具体而言,保留激活图数值大于0.5的训练图片相对位置上的像素点,将激活图数值小于0.5的训练图片相对位置上的像素点设置为零。
[0028]作为优选的技术方案,步骤八中使用的将步骤三和步骤七得到的普通视觉特征和掩码图片视觉特征进行组合,组合特征的计算公式如下:
[0029]f=αf
i
+(1

α)f
m

[0030]其中f
i
是步骤三中的模型提取的最后一层的图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉特征约束的细粒度图像分类方法,其特征在于,包括以下步骤:步骤一:训练数据集的采集;步骤二:对训练图片进行数据预处理和数据增广;步骤三:采用CLIP方法中的ViT

B/16模型作为基础模型提取训练图片的视觉特征;步骤四:利用CLIP方法中在大型数据集上预训练得到的ViT

B/16视觉特征编码器提取步骤三中训练图片的视觉特征,每一层编码器输出提取图片得到的中间特征;将这些中间特征作为标准对步骤三中的ViT

B/16模型的中间特征进行约束,得到图片特征约束1;步骤五:每张训练图片都有对应的描述性文本数据,利用CLIP方法中在大型数据集上预训练得到的transformer文本特征编码器提取步骤三中训练图片所对应的描述性文本数据得到文本特征;将这些文本特征作为标准对步骤三中模型得到的图片视觉特征向量进行约束,得到图片特征约束2;步骤六:利用CLIP方法中在大型数据集上预训练得到的ViT

B/16视觉特征编码器获取训练图片的激活图(activation map),将激活图作为掩码对训练图片进行掩码处理;步骤七:用步骤三的模型提取步骤六中掩码处理后的图片的视觉特征,得到掩码图片视觉特征;步骤八:将步骤三和步骤七得到的普通视觉特征和掩码图片视觉特征进行组合后得到的图片特征作为训练图片的最终图片视觉特征;将最终图片视觉特征经过多层感知机后得到每一类的置信度,通过交叉熵损失函数进行分类损失的计算;步骤九:将步骤四、步骤五和步骤八中的图片特征约束1、图片特征约束2和分类损失相加后得到任务的总损失;通过总损失训练步骤三中的ViT

B/16模型;步骤十:测试阶段,将测试图片复制4份,将四份分别旋转一定的角度,再使用步骤九中训练完成的ViT

B/16模型对这四份测试图片分别进行预测,然后平均四份的输出结果,最终平均得分最高的类别就是测试图片的预测类别。2.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤一中,采用的数据集是Caltech

UCSD Birds

200

2011鸟类细分类数据集,该数据集包含200类鸟类的图片数据,共11788张图片,并且每张图片都有对应的一段描述性文本数据;取该数据集中的5994张图片作为训练数据集。3.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤二中,将图片缩放至统一的尺寸224
×
224的大小,然后利用随机剪裁、随机翻转、...

【专利技术属性】
技术研发人员:沈冯立李福生赵彦春
申请(专利权)人:电子科技大学长三角研究院湖州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1