面向模态缺失的细粒度多模态元学习识别方法技术

技术编号:39311200 阅读:12 留言:0更新日期:2023-11-12 15:56
本发明专利技术公开了一种面向模态缺失的细粒度多模态元学习识别方法,以解决模态缺失问题,该方法包括:在完整数据集上进行采样,构建多个缺失模态的元任务进行训练;在每个任务中,从多模态数据中提取局部和全局特征,通过注意力机制融合特征;将融合后的特征送入补全模块,补充缺失模态信息,最后合并特征进行分类。通过在完整数据集上使用元学习,模型在不同缺失情况下具有出色的泛化性能,能够有效地补全信息并实现细粒度多模态数据分类。信息并实现细粒度多模态数据分类。信息并实现细粒度多模态数据分类。

【技术实现步骤摘要】
面向模态缺失的细粒度多模态元学习识别方法


[0001]本专利技术属于模态缺失下的细粒度多模态识别领域,具体涉及一种面向模态缺失的细粒度多模态元学习识别方法。

技术介绍

[0002]细粒度识别是计算机视觉和模式识别领域的基础研究课题,其旨在识别属于同一大类下的子类类别(如,不同种类的花、狗、汽车)。细粒度识别的关键挑战在于理解细粒度差异,以充分区分总体外观或描述高度相似但细粒度特征不同的对象。随着多媒体数据的增加,多模态细粒度识别在近年中取得了巨大进展。这些方法侧重于通过合并多模态数据来建立联合表示,以提高细粒度识别精度。然而,多模态细粒度数据通常缺少模态,即多模态数据不完整。例如,对于某种稀有鸟类,我们可以获得图像和文本模态数据,但很难获取鸟类的歌唱(即音频模态数据),更不用说视频模态。因此,在模态缺失下的细粒度多模态识别任务更具有现实意义,同时有更大的挑战性。
[0003]为了应对神经网络模型在细粒度识别任务上表现差的情况,研究人员提出采用注意力机制突出数据中重要的部件信息,来进一步对细粒度信息进行提取,从而提升识别精度。同时研究人员也提出构建重构网络对缺失模态的信息进行重构,从而缓解模态缺失带来识别精度下降的现象。在融合多模态数据方面,一些研究工作通过映射将多模态数据映射到同一子空间内,减小模态特征之间的差异,对多模态特征进行融合。元学习的思想是让模型学会学习,使其可以在获取已有知识的基础上快速学习新的任务,在多个任务上都能有良好的性能表现。
[0004]现有的方法没有考虑到如何在模态缺失下对细粒度多模态数据进行分类,现有对数据重构的方法存在重构质量一般,对识别精度提升小的问题。同时对多模态数据的识别方法也没有考虑到关注数据细粒度的信息,对数据特征的融合不够充分,因此在细粒度多模态数据上识别精度较低。

技术实现思路

[0005]本专利技术的目的在于提供一种面向模态缺失的细粒度多模态元学习识别方法。
[0006]实现本专利技术目的的技术方案为:第一方面,本专利技术提供一种面向模态缺失的细粒度多模态元学习识别方法,包括以下步骤:
[0007]步骤1,在细粒度多模态数据完备的数据集上采样,构造多个含模态数据缺失的元任务,在每个任务上对模型进行训练;
[0008]步骤2,每个任务内,对细粒度多模态数据提取局部特征以及全局特征,利用注意力机制分别对局部特征以及全局特征进行特征融合;
[0009]步骤3,将融合后的局部特征和全局特征分别送入对应的补全模块,补全缺失模态的特征,最后将补全的局部以及全局特征拼接进行分类;
[0010]步骤4,元任务训练结束后,将得到的模型在细粒度多模态数据缺失的数据集上训
练,得到最终的模型以及分类结果。
[0011]第二方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法的步骤。
[0012]第三方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法的步骤。
[0013]本专利技术与现有技术相比,其显著优点为:(1)本专利技术利用元学习在细粒度多模态数据完备的数据集上采样,构造多个含模态数据缺失的元任务训练模型,使模型能够补全缺失模态的信息,同时获得良好的泛化性能,在任意模态缺失情形下对细粒度多模态数据有良好的分类效果。(2)本专利技术利用注意力机制对局部特征和全局特征分别进行特征融合,使不同模态特征充分进行交互并突出有分辨力的特征,将局部特征和全局特征拼接进行识别,提升模型对细粒度多模态数据识别的准确率。(3)本专利技术针对模态缺失设计补全模块,对缺失模态信息进行补全,同时对整体特征进行补全使融合后的特征尽可能少受模态缺失带来的影响,减少融合特征的偏置,提高识别的准确率。
附图说明
[0014]图1为本专利技术面向模态缺失的细粒度多模态元学习识别方法流程图。
[0015]图2为本专利技术面向模态缺失的细粒度多模态元学习识别方法的模型图。
具体实施方式
[0016]结合图1、图2,一种面向模态缺失的细粒度多模态元学习识别方法,包括以下步骤:
[0017]步骤1,在细粒度多模态数据完备的数据集上采样,构造多个含模态数据缺失的元任务,在每个任务上对模型进行训练。
[0018]本专利技术首先在细粒度多模态数据完备的数据集上采样,得到多个含模态数据缺失的元任务在每个任务上对模型进行训练。以第i个任务举例,有训练集和测试集模型初始参数为θ,计算模型在训练集上的损失并通过梯度下降来更新模型参数,得到训练过后的模型参数
[0019][0020]其中代表模型在第i个元任务的训练集上的梯度,α为元任务内的学习率。得到更新后的模型参数后,根据在第i个任务的测试集上的梯度更新模型初始参数θ,目标函数可以写为:
[0021][0022]其中为在包含众多元任务的中取第i个元任务,为第i个任务上训练得到的模型在第i个测试集上的输出结果。
[0023]目标函数通过使模型在每个任务的测试集上的损失变小来优化模型参数。通过在多个含模态缺失的元任务上训练,模型获得了补全缺失模态信息的能力和良好的泛化性能。最终将模型在细粒度多模态数据缺失的数据集上训练,得到最终的模型以及分类结果。
[0024]步骤2,每个任务内,对细粒度多模态数据提取局部特征以及全局特征,利用注意力机制分别对局部特征以及全局特征进行特征融合。
[0025]在每个任务内,先对细粒度多模态数据提取局部特征以及全局特征,以图片、文本、音频、视频模态举例,首先通过带有空间注意力机制的卷积神经网络提取图片模态的特征对X
img
做全局平均池化得到全局特征x
img
,按类似的操作分别得到音频和视频模态的全局特征x
aud
,x
video
,对于文本数据采用长短时记忆网络提取特征x
txt
。以图片模态和音频模态特征融合举例,利用注意力机制,计算图片模态和文本模态特征的点积,得到关系系数。将关系系数乘以音频模态特征并加上图片模态的特征得到图片模态和音频模态的融合特征x
img&aud
,公式如:
[0026][0027]其中代表图片模态和音频模态特征的关系系数。按照相同的方式,可以得到图片模态特征和其他模态特征的融合特征,将所有融合特征相加,得到图片模态特征和其他所有模态特征的融合特征x
img_fuse

[0028]x
img_fuse
=(x
img&aud
+x
img&txt
+x
img&video
)/3
[0029]其中x
img&txt
为图片模态和文本模态的融合特征,x
img&amp本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向模态缺失的细粒度多模态元学习识别方法,其特征在于,包括以下步骤:步骤1,在细粒度多模态数据完备的数据集上采样,构造多个含模态数据缺失的元任务,在每个任务上对模型进行训练;步骤2,每个任务内,对细粒度多模态数据提取局部特征以及全局特征,利用注意力机制分别对局部特征以及全局特征进行特征融合;步骤3,将融合后的局部特征和全局特征分别送入对应的补全模块,补全缺失模态的特征,最后将补全的局部以及全局特征拼接进行分类;步骤4,元任务训练结束后,将得到的模型在细粒度多模态数据缺失的数据集上训练,得到最终的模型以及分类结果。2.根据权利要求1所述的面向模态缺失的细粒度多模态元学习识别方法,其特征在于,步骤1在细粒度多模态数据完备的数据集上采样,得到多个含模态数据缺失的元任务在每个任务上对模型进行训练;对于第i个任务,有训练集和测试集模型初始参数为θ,计算模型在训练集上的损失并通过梯度下降来更新模型参数,得到训练过后的模型参数型参数其中代表模型在第i个元任务的训练集上的梯度,α为元任务内的学习率;得到更新后的模型参数后,根据在第i个任务的测试集上的梯度更新模型初始参数θ,目标函数写为:其中为在包含众多元任务的中取第i个元任务,为第i个任务上训练得到的模型在第i个测试集上的输出结果。3.根据权利要求1所述的面向模态缺失的细粒度多模态元学习识别方法,其特征在于,步骤2在每个元任务内,先对细粒度多模态数据提取局部特征以及全局特征,通过带有空间注意力机制的卷积神经网络提取图片模态的特征对X
img
做全局平均池化得到全局特征x
img
,同理得到音频和视频模态的全局特征x
aud
,x
video
,对于文本数据采用长短时记忆网络提取特征x
txt
;对图片模态和音频模态特征融合,利用注意力机制,计算图片模态和文本模态特征的点积,得到关系系数;将关系系数乘以音频模态特征并加上图片模态的特征得到图片模态和音频模态的融合特征x
img&aud
,公式如下:其中代表图片模态和音频模态特征的关系系数;按照相同的方式,得到图片模态特征和其他模态特征的融合特征,将所有融合特征相加,得到图片模态特征和其他
所有模态特征的融合特征x
img_fuse
:x
img_fuse
=(x
img&aud
+x
img&txt
+x
img&video
)/3其中x
img&txt
为图片模态和文本模态的融合特征,x
img&video
为图片模态和视频模态的融合特征;对于剩余模态,按相似的方式得到融合特征,最终将所有特征加和,得到全局的融合特征:x
agg
=x
img_fuse
+x
aud_fuse
+x
txt_fuse
+x
video_fuse
其中x

【专利技术属性】
技术研发人员:魏秀参于泓涛
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1