System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种细粒度场景图像分类的方法,属于计算机多媒体。
技术介绍
1、与一般的图像分类不同,细粒度图像分类任务要求模型对一个大类的图像进行更精细的分类,因此该任务要求更强的特征编码能力。在不同的大类中,细粒度场景图像分类任务处理场景图像,这些图像中包含的信息比单个物体图像更多。由于来自同一大类的图像通常在视觉上十分相似,因此细粒度场景图像分类模型往往会使用不同模态的特征,包括图像中的物体和文本,以利用各种不同类型的信息。最近的研究主要集中于使用更好的多模态特征编码来提升模型效果。
2、得到了上述的多模态特征编码之后,模型继续进行多模态特征融合。一般来说,大多数现有的模型都基于先验直觉来设计多模态特征融合方法,即全局视觉特征始终是所有模态中最具区分性和代表性的特征。例如,许多方法使用全局视觉特征作为注意力机制中的查询向量,或者将单个全局视觉特征向量与其他模态的推理结果连接起来。然而,除了全局视觉特征之外,图像中的物体和文本也非常重要,尤其是当图像具有相似的全局布局时。
技术实现思路
1、为了克服现有技术的不足,本专利技术提出一种细粒度场景图像分类的方法,其基于模态无关适配器(modality-agnostic adapter,maa)进行多模态特征融合,使模型自适应地学习不同情况下不同模态的重要性,而无需在模型架构中进行预先设置。具体而言,本专利技术认为不同模态特征的重要性在不同的情况下有所不同,并且在细粒度图像分类任务中没有恒定的模态偏好,因此本专利技术消除了不
2、本专利技术的技术方案具体介绍如下。
3、本专利技术提供一种细粒度场景图像分类的方法,其采用细粒度场景图像分类模型进行细粒度场景图像分类;细粒度场景图像分类模型包括依次连接的并行设计的预训练模型、并行设计的若干多层感知机、transformer编码器、平均池化层和全连接层;具体步骤如下:
4、对于给定输入图像,首先使用不同的预训练模型来得到多模态特征编码,记为:
5、
6、式中nm表示单个模态的特征序列长度,dm表示特征的维度,m∈{g,l,t}分别表示全局视觉特征、局部视觉特征和文本特征;
7、接着,使用多个多层感知机mlp来消除各个模态在分布上的差异,即统一特征的维度,记为d,由此,将得到的模态无关编码输入到模态无关的transformer编码器中来进行语义级别的融合;
8、然后,给定特征序列使用平均池化操作得到每个输入图像的单个特征向量
9、最后,利用全连接层得到分类结果的概率分布,实现细粒度场景图像分类。
10、本专利技术中,不同预训练模型提取的模态特征除了可以是全局视觉特征、局部视觉特征和文本特征外,还可以是其他模态特征。
11、和现有技术相比,本专利技术的有益效果如下:
12、1.本专利技术平等地对待所有模态,以实现更好的多模态特征融合。
13、2.本专利技术适应于各种模态组合,无需为每种模态组合设计新的融合方法,而且可以通过添加新模态来进一步提高模型的性能。
本文档来自技高网...【技术保护点】
1.一种细粒度场景图像分类的方法,其特征在于,其采用细粒度场景图像分类模型进行细粒度场景图像分类;细粒度场景图像分类模型包括依次连接的并行设计的预训练模型、并行设计的若干多层感知机、Transformer编码器、平均池化层和全连接层;具体步骤如下:
2.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,使用ViT的输出作为全局视觉编码,使用KnowBert的输出作为文本编码,通过裁剪原始图像的左上、右上、左下、右下和中心部分,并将5个裁剪后图像输入到ViT模型中以获得局部视觉编码。
3.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,不同模态的特征编码将通过各自的MLP生成模态无关编码,如式(2)所示:
4.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,通过模态无关的Transformer编码器进行特征融合,表述为式(3)和式(4):
5.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,在细粒度场景图像分类模型训练的过程中,使用如式(1)所示交叉熵损失函数:
【技术特征摘要】
1.一种细粒度场景图像分类的方法,其特征在于,其采用细粒度场景图像分类模型进行细粒度场景图像分类;细粒度场景图像分类模型包括依次连接的并行设计的预训练模型、并行设计的若干多层感知机、transformer编码器、平均池化层和全连接层;具体步骤如下:
2.根据权利要求1所述的细粒度场景图像分类的方法,其特征在于,使用vit的输出作为全局视觉编码,使用knowbert的输出作为文本编码,通过裁剪原始图像的左上、右上、左下、右下和中心部分,并将5个裁剪后图像输入到vit...
【专利技术属性】
技术研发人员:王逸群,周钊,杜响成,吴兴蛟,郑莹斌,金城,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。