面向模态缺失的细粒度多模态元学习识别方法技术

技术编号：39311200 阅读：12 留言：0更新日期：2023-11-12 15:56

本发明专利技术公开了一种面向模态缺失的细粒度多模态元学习识别方法，以解决模态缺失问题，该方法包括：在完整数据集上进行采样，构建多个缺失模态的元任务进行训练；在每个任务中，从多模态数据中提取局部和全局特征，通过注意力机制融合特征；将融合后的特征送入补全模块，补充缺失模态信息，最后合并特征进行分类。通过在完整数据集上使用元学习，模型在不同缺失情况下具有出色的泛化性能，能够有效地补全信息并实现细粒度多模态数据分类。信息并实现细粒度多模态数据分类。信息并实现细粒度多模态数据分类。

全部详细技术资料下载

【技术实现步骤摘要】
面向模态缺失的细粒度多模态元学习识别方法

[0001]本专利技术属于模态缺失下的细粒度多模态识别领域，具体涉及一种面向模态缺失的细粒度多模态元学习识别方法。

技术介绍

[0002]细粒度识别是计算机视觉和模式识别领域的基础研究课题，其旨在识别属于同一大类下的子类类别(如，不同种类的花、狗、汽车)。细粒度识别的关键挑战在于理解细粒度差异，以充分区分总体外观或描述高度相似但细粒度特征不同的对象。随着多媒体数据的增加，多模态细粒度识别在近年中取得了巨大进展。这些方法侧重于通过合并多模态数据来建立联合表示，以提高细粒度识别精度。然而，多模态细粒度数据通常缺少模态，即多模态数据不完整。例如，对于某种稀有鸟类，我们可以获得图像和文本模态数据，但很难获取鸟类的歌唱(即音频模态数据)，更不用说视频模态。因此，在模态缺失下的细粒度多模态识别任务更具有现实意义，同时有更大的挑战性。
[0003]为了应对神经网络模型在细粒度识别任务上表现差的情况，研究人员提出采用注意力机制突出数据中重要的部件信息，来进一步对细粒度信息进行提取，从而提升识别精度。同时研究人员也提出构建重构网络对缺失模态的信息进行重构，从而缓解模态缺失带来识别精度下降的现象。在融合多模态数据方面，一些研究工作通过映射将多模态数据映射到同一子空间内，减小模态特征之间的差异，对多模态特征进行融合。元学习的思想是让模型学会学习，使其可以在获取已有知识的基础上快速学习新的任务，在多个任务上都能有良好的性能表现。
[0004]现有的方法没有考虑到如何在模态缺失下对细粒...

【技术保护点】

【技术特征摘要】
1.一种面向模态缺失的细粒度多模态元学习识别方法，其特征在于，包括以下步骤：步骤1，在细粒度多模态数据完备的数据集上采样，构造多个含模态数据缺失的元任务，在每个任务上对模型进行训练；步骤2，每个任务内，对细粒度多模态数据提取局部特征以及全局特征，利用注意力机制分别对局部特征以及全局特征进行特征融合；步骤3，将融合后的局部特征和全局特征分别送入对应的补全模块，补全缺失模态的特征，最后将补全的局部以及全局特征拼接进行分类；步骤4，元任务训练结束后，将得到的模型在细粒度多模态数据缺失的数据集上训练，得到最终的模型以及分类结果。2.根据权利要求1所述的面向模态缺失的细粒度多模态元学习识别方法，其特征在于，步骤1在细粒度多模态数据完备的数据集上采样，得到多个含模态数据缺失的元任务在每个任务上对模型进行训练；对于第i个任务，有训练集和测试集模型初始参数为θ，计算模型在训练集上的损失并通过梯度下降来更新模型参数，得到训练过后的模型参数型参数其中代表模型在第i个元任务的训练集上的梯度，α为元任务内的学习率；得到更新后的模型参数后，根据在第i个任务的测试集上的梯度更新模型初始参数θ，目标函数写为：其中为在包含众多元任务的中取第i个元任务，为第i个任务上训练得到的模型在第i个测试集上的输出结果。3.根据权利要求1所述的面向模态缺失的细粒度多模态元学习识别方法，其特征在于，步骤2在每个元任务内，先对细粒度多模态数据提取局部特征以及全局特征，通过带有空间注意力机制的卷积神经网络提取图片模态的特征对X
img
做全局平均池化得到全局特征x
img
，同理得到音频和视频模态的全局特征x
aud
，x
video
，对于文本数据采用长短时记忆网络提取特征x
txt
；对图片模态和音频模态特征融合，利用注意力机制，计算图片模态和文本模态特征的点积，得到关系系数；将关系系数乘以音频模态特征并加上图片模态的特征得到图片模态和音频模态的融合特征x
img&aud
，公式如下：其中代表图片模态和音频模态特征的关系系数；按照相同的方式，得到图片模态特征和其他模态特征的融合特征，将所有融合特征相加，得到图片模态特征和其他
所有模态特征的融合特征x
img_fuse
：x
img_fuse
＝(x
img&aud
+x
img&txt
+x
img&video
)/3其中x
img&txt
为图片模态和文本模态的融合特征，x
img&video
为图片模态和视频模态的融合特征；对于剩余模态，按相似的方式得到融合特征，最终将所有特征加和，得到全局的融合特征：x
agg
＝x
img_fuse
+x
aud_fuse
+x
txt_fuse
+x
video_fuse
其中x

【专利技术属性】
技术研发人员：魏秀参，于泓涛，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人