System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种细粒度场景图像分类的方法技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

一种细粒度场景图像分类的方法技术

技术编号:42656585 阅读:9 留言:0更新日期:2024-09-10 12:16
本发明专利技术属于计算机多媒体技术领域,具体为一种细粒度场景图像分类的方法。本发明专利技术基于一种新的多模态特征融合方法,也称为模态无关适配器MAA使模型自适应地学习不同情况下不同模态的重要性,而无需在模型架构中进行预先设置。具体而言,本发明专利技术基于多层感知机MLP来消除各个模态在分布上的差异消除了不同模态之间的数据分布差异,然后使用了模态无关的Transformer编码器来进行语义级别的特征融合,再结合平均池化池化操作和全连接层实现细粒度场景图像分类。本发明专利技术提出的方法能够准确地实现细粒度场景图像分类,而且该模型可以很好地适应于新模态并进一步提高其性能。

【技术实现步骤摘要】

本专利技术涉及一种细粒度场景图像分类的方法,属于计算机多媒体。


技术介绍

1、与一般的图像分类不同,细粒度图像分类任务要求模型对一个大类的图像进行更精细的分类,因此该任务要求更强的特征编码能力。在不同的大类中,细粒度场景图像分类任务处理场景图像,这些图像中包含的信息比单个物体图像更多。由于来自同一大类的图像通常在视觉上十分相似,因此细粒度场景图像分类模型往往会使用不同模态的特征,包括图像中的物体和文本,以利用各种不同类型的信息。最近的研究主要集中于使用更好的多模态特征编码来提升模型效果。

2、得到了上述的多模态特征编码之后,模型继续进行多模态特征融合。一般来说,大多数现有的模型都基于先验直觉来设计多模态特征融合方法,即全局视觉特征始终是所有模态中最具区分性和代表性的特征。例如,许多方法使用全局视觉特征作为注意力机制中的查询向量,或者将单个全局视觉特征向量与其他模态的推理结果连接起来。然而,除了全局视觉特征之外,图像中的物体和文本也非常重要,尤其是当图像具有相似的全局布局时。


技术实现思路

1、为了克服现有技术的不足,本专利技术提出一种细粒度场景图像分类的方法,其基于模态无关适配器(modality-agnostic adapter,maa)进行多模态特征融合,使模型自适应地学习不同情况下不同模态的重要性,而无需在模型架构中进行预先设置。具体而言,本专利技术认为不同模态特征的重要性在不同的情况下有所不同,并且在细粒度图像分类任务中没有恒定的模态偏好,因此本专利技术消除了不同模态之间的数据分布差异,然后使用了模态无关的transformer编码器来进行语义级别的特征融合。本专利技术提出的方法能够准确地实现细粒度场景图像分类,而且该模型可以很好地适应于新模态并进一步提高其性能。

2、本专利技术的技术方案具体介绍如下。

3、本专利技术提供一种细粒度场景图像分类的方法,其采用细粒度场景图像分类模型进行细粒度场景图像分类;细粒度场景图像分类模型包括依次连接的并行设计的预训练模型、并行设计的若干多层感知机、transformer编码器、平均池化层和全连接层;具体步骤如下:

4、对于给定输入图像,首先使用不同的预训练模型来得到多模态特征编码,记为:

5、

6、式中nm表示单个模态的特征序列长度,dm表示特征的维度,m∈{g,l,t}分别表示全局视觉特征、局部视觉特征和文本特征;

7、接着,使用多个多层感知机mlp来消除各个模态在分布上的差异,即统一特征的维度,记为d,由此,将得到的模态无关编码输入到模态无关的transformer编码器中来进行语义级别的融合;

8、然后,给定特征序列使用平均池化操作得到每个输入图像的单个特征向量

9、最后,利用全连接层得到分类结果的概率分布,实现细粒度场景图像分类。

10、本专利技术中,不同预训练模型提取的模态特征除了可以是全局视觉特征、局部视觉特征和文本特征外,还可以是其他模态特征。

11、和现有技术相比,本专利技术的有益效果如下:

12、1.本专利技术平等地对待所有模态,以实现更好的多模态特征融合。

13、2.本专利技术适应于各种模态组合,无需为每种模态组合设计新的融合方法,而且可以通过添加新模态来进一步提高模型的性能。

本文档来自技高网...

【技术保护点】

1.一种细粒度场景图像分类的方法,其特征在于,其采用细粒度场景图像分类模型进行细粒度场景图像分类;细粒度场景图像分类模型包括依次连接的并行设计的预训练模型、并行设计的若干多层感知机、Transformer编码器、平均池化层和全连接层;具体步骤如下:

2.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,使用ViT的输出作为全局视觉编码,使用KnowBert的输出作为文本编码,通过裁剪原始图像的左上、右上、左下、右下和中心部分,并将5个裁剪后图像输入到ViT模型中以获得局部视觉编码。

3.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,不同模态的特征编码将通过各自的MLP生成模态无关编码,如式(2)所示:

4.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,通过模态无关的Transformer编码器进行特征融合,表述为式(3)和式(4):

5.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,在细粒度场景图像分类模型训练的过程中,使用如式(1)所示交叉熵损失函数:

【技术特征摘要】

1.一种细粒度场景图像分类的方法,其特征在于,其采用细粒度场景图像分类模型进行细粒度场景图像分类;细粒度场景图像分类模型包括依次连接的并行设计的预训练模型、并行设计的若干多层感知机、transformer编码器、平均池化层和全连接层;具体步骤如下:

2.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,使用vit的输出作为全局视觉编码,使用knowbert的输出作为文本编码,通过裁剪原始图像的左上、右上、左下、右下和中心部分,并将5个裁剪后图像输入到vit...

【专利技术属性】
技术研发人员:王逸群周钊杜响成吴兴蛟郑莹斌金城
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1