【技术实现步骤摘要】
一种基于视觉特征约束的细粒度图像分类方法
[0001]本专利技术属于计算机视觉技术,特别涉及一种基于视觉特征约束的细粒度图像分类方法。
技术介绍
[0002]自然语言处理中使用大量的未处理数据作为训练数据得到的预训练模型,可以适用于不同的下游任务。但是计算机视觉中大量的预训练模型只能适用于部分与训练数据集分布类似的数据集,无法和自然语言处理模型一样适用于多类型的下游任务。因此,研究人员提出CLIP(Contrastive Language
‑
Image Pre
‑
training)方法。该方法充分地利用互联网上可以轻易爬取搜集得到的大量成对的文本和图像数据,将文本作为图像的标签训练一个具有较强泛化能力,便于迁移到其他下游任务的模型。
[0003]CLIP方法的主要过程如下:首先通过50万条查询文本在搜索引擎中得到4亿张图片,然后通过视觉特征编码器和文本特征编码器分别提取图片和文本的特征,最后利用度量学习的方法训练配对的视觉特征编码器和文本特征编码器。CLIP方法最后可以获得能提取图片特征的视觉特征编码器和提取文本特征的文本特征编码器,并且两个编码器提取的特征在同一个特征空间中,可以通过对比得到相似度。当前有很多的下游任务采用CLIP方法,通过预训练的编码器的帮助提升性能,但还没有将CLIP方法应用在细粒度图片分类领域。细粒度图片分类数据集中对于每张图片都会有对应的文本描述,正好可以结合CLIP方法中训练得到的文本特征编码器提取文本特征帮助细粒度图片分类。通过对模型提取的视觉 ...
【技术保护点】
【技术特征摘要】
1.一种基于视觉特征约束的细粒度图像分类方法,其特征在于,包括以下步骤:步骤一:训练数据集的采集;步骤二:对训练图片进行数据预处理和数据增广;步骤三:采用CLIP方法中的ViT
‑
B/16模型作为基础模型提取训练图片的视觉特征;步骤四:利用CLIP方法中在大型数据集上预训练得到的ViT
‑
B/16视觉特征编码器提取步骤三中训练图片的视觉特征,每一层编码器输出提取图片得到的中间特征;将这些中间特征作为标准对步骤三中的ViT
‑
B/16模型的中间特征进行约束,得到图片特征约束1;步骤五:每张训练图片都有对应的描述性文本数据,利用CLIP方法中在大型数据集上预训练得到的transformer文本特征编码器提取步骤三中训练图片所对应的描述性文本数据得到文本特征;将这些文本特征作为标准对步骤三中模型得到的图片视觉特征向量进行约束,得到图片特征约束2;步骤六:利用CLIP方法中在大型数据集上预训练得到的ViT
‑
B/16视觉特征编码器获取训练图片的激活图(activation map),将激活图作为掩码对训练图片进行掩码处理;步骤七:用步骤三的模型提取步骤六中掩码处理后的图片的视觉特征,得到掩码图片视觉特征;步骤八:将步骤三和步骤七得到的普通视觉特征和掩码图片视觉特征进行组合后得到的图片特征作为训练图片的最终图片视觉特征;将最终图片视觉特征经过多层感知机后得到每一类的置信度,通过交叉熵损失函数进行分类损失的计算;步骤九:将步骤四、步骤五和步骤八中的图片特征约束1、图片特征约束2和分类损失相加后得到任务的总损失;通过总损失训练步骤三中的ViT
‑
B/16模型;步骤十:测试阶段,将测试图片复制4份,将四份分别旋转一定的角度,再使用步骤九中训练完成的ViT
‑
B/16模型对这四份测试图片分别进行预测,然后平均四份的输出结果,最终平均得分最高的类别就是测试图片的预测类别。2.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤一中,采用的数据集是Caltech
‑
UCSD Birds
‑
200
‑
2011鸟类细分类数据集,该数据集包含200类鸟类的图片数据,共11788张图片,并且每张图片都有对应的一段描述性文本数据;取该数据集中的5994张图片作为训练数据集。3.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤二中,将图片缩放至统一的尺寸224
×
224的大小,然后利用随机剪裁、随机翻转、...
【专利技术属性】
技术研发人员:沈冯立,李福生,赵彦春,
申请(专利权)人:电子科技大学长三角研究院湖州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。