当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于多模态小样本持续学习的图像分类方法及产品技术

技术编号:38360548 阅读:11 留言:0更新日期:2023-08-05 17:30
本申请提供了一种基于多模态小样本持续学习的图像分类方法及产品,涉及图像处理技术领域,包括:获取输入图像;基于输入图像,获取输入数据,输入数据至少包括视觉特征以及所述视觉特征对应的文本原型;将视觉特征以及文本原型输入语义融合网络,以对视觉特征以及文本原型进行信息融合,获取自适应原型,自适应原型至少包括自适应视觉原型以及自适应查询表征;基于自适应视觉原型与自适应查询表征,获取查询图像的类别概率。本申请通过在小样本持续学习过程中,基于语义融合网络将隐藏在类别文本中语义信息与视觉信息进行融合,使模型在进行小样本持续学习时考虑语义信息的影响,从而极大地缓解了小样本持续学习过程中的灾难性遗忘问题。性遗忘问题。性遗忘问题。

【技术实现步骤摘要】
一种基于多模态小样本持续学习的图像分类方法及产品


[0001]本申请实施例涉及图像处理
,具体而言,涉及一种基于多模态小样本持续学习的图像分类方法及产品。

技术介绍

[0002]小样本持续学习作为一种同时解决持续学习和小样本学习问题的范式,已经成为机器学习中一个充满挑战的问题。一个理想的小样本持续学习模型应当能够在新类别出现时区分所有已知类别,其中每个类别仅包含少量有标签数据。
[0003]然而,现有的小样本持续学习方法只考虑了视觉模态,侧重于在图像的单一模态的视觉信息上进行特征学习,忽略了类别之间的语义关联,这使得新类别的分布往往和旧类别发生重叠而难以区分,从而导致了严重的灾难性遗忘问题。因此,如何缓解小样本持续学习的灾难性遗忘问题,成为本领域技术人员当前亟待解决的技术问题。

技术实现思路

[0004]本申请实施例在于提供一种基于多模态小样本持续学习的图像分类方法及产品,旨在解决如何缓解小样本持续学习的灾难性遗忘的问题。
[0005]本申请实施例第一方面提供一种基于多模态小样本持续学习的图像分类方法,应用于第t个持续学习任务,t≥1,所述方法包括:
[0006]获取输入图像,所述输入图像至少包括查询图像和支持图像;
[0007]基于所述输入图像,获取输入数据,所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型;
[0008]将所述视觉特征以及所述文本原型输入语义融合网络,以对所述视觉特征以及所述文本原型进行信息融合,获取自适应原型,所述自适应原型至少包括自适应视觉原型以及自适应查询表征;
[0009]基于所述自适应视觉原型与所述自适应查询表征,获取所述查询图像的类别概率。
[0010]在一种可选的实施方式中,所述自适应原型还包括自适应文本原型,在获取自适应原型之后,所述方法还包括:
[0011]基于所述自适应视觉原型、所述自适应文本原型与第一真实标签,获取语义一致性损失,所述第一真实标签用于表征所述自适应视觉原型与所述自适应视觉原型对应的文本原型之间的匹配关系;
[0012]基于所述自适应查询表征、所述自适应视觉原型与第二真实标签,获取查询损失,所述第二真实标签为所述查询表征的真实类别标签;
[0013]基于所述语义一致性损失以及所述查询损失,对所述语义融合网络进行优化,得到优化的语义融合网络;
[0014]将所述优化的语义融合网络作为第t+1个持续学习任务的所述语义融合网络。
[0015]在一种可选的实施方式中,基于所述输入图像,获取输入数据,包括:
[0016]基于所述支持图像所属的类别,获取语义信息;
[0017]将所述支持图像以及所述查询图像输入卷积子网络,分别得到所述支持图像对应的视觉原型以及所述查询图像对应的查询表征;
[0018]将所述语义信息输入投影子网络,得到所述文本原型;
[0019]将所述查询表征以及所述视觉原型进行连接处理,得到所述视觉特征。
[0020]在一种可选的实施方式中,所述语义融合网络包括自注意力模块以及前向传播层,将所述视觉特征以及所述文本原型输入语义融合网络,以对所述视觉特征以及所述文本原型进行信息融合,获取自适应原型,包括:
[0021]将所述视觉特征以及所述文本原型输入所述自注意力模块,以使所述视觉特征以及所述文本原型中的一者基于自注意力机制,对另一者进行信息融合以及信息增强,得到第一视觉特征以及第一文本原型;
[0022]对所述第一视觉特征、所述第一文本原型和所述文本原型进行加和以及归一化处理,得到增强的第一视觉特征以及增强的第一文本原型;
[0023]将所述增强的第一视觉特征以及所述增强的第一文本原型输入所述前向传播层,以向隐空间进行映射,得到第二视觉特征以及第二文本原型;
[0024]对所述第二视觉特征、所述第二文本原型和所述增强的第一文本原型进行加和以及归一化处理,得到所述自适应原型。
[0025]在一种可选的实施方式中,基于所述自适应视觉原型与所述自适应查询表征,获取所述查询图像的类别概率,包括:
[0026]基于所述自适应视觉原型与所述自适应查询表征,获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离;
[0027]基于所述余弦距离,获取所述自适应查询表征属于所述自适应视觉原型对应的图像类别的概率,作为所述类别概率。
[0028]在一种可选的实施方式中,在获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离之后,所述方法还包括:
[0029]基于所述余弦距离,获取目标自适应视觉原型,所述目标自适应视觉原型为与所述自适应查询表征之间的余弦距离最小的自适应视觉原型;
[0030]将所述目标自适应视觉原型对应的图像类别,作为所述查询图像的类别。
[0031]在一种可选的实施方式中,当t=1时,所述语义融合网络,按照如下方式获取:
[0032]获取训练数据集,所述训练数据集至少包括原始支持图像、原始查询图像以及原始语义信息;
[0033]将所述训练数据集输入初始投影子网络以及初始卷积子网络,获取原始输入数据;
[0034]将所述原始输入数据输入初始语义融合网络,获取原始自适应原型;
[0035]基于所述原始自适应原型与原始真实标签,获取基础训练损失;
[0036]基于所述基础训练损失,对所述初始投影子网络、所述初始卷积子网络以及所述初始语义融合网络进行训练,得到第一语义融合网络、投影子网络以及卷积子网络,所述投影子网络以及所述卷积子网络用于在所有持续学习任务中获取所述输入数据;
[0037]将所述第一语义融合网络作为t=1时的所述语义融合网络。
[0038]本申请实施例第二方面提供了一种基于多模态小样本持续学习的图像分类装置,应用于第t个持续学习任务,t≥1,所述装置包括:
[0039]获取模块,用于获取输入图像,所述输入图像至少包括查询图像和支持图像;
[0040]底层处理模块,用于基于所述输入图像,获取输入数据,所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型;
[0041]语义融合模块,用于将所述视觉特征以及所述文本原型输入语义融合网络,以对所述视觉特征以及所述文本原型进行信息融合,获取自适应原型,所述自适应原型至少包括自适应视觉原型以及自适应查询表征;
[0042]分类模块,用于基于所述自适应视觉原型与所述自适应查询表征,获取所述查询图像的类别概率。
[0043]在一种可选的实施方式中,所述装置还包括:
[0044]第一损失模块,用于基于所述自适应视觉原型、所述自适应文本原型与第一真实标签,获取语义一致性损失,所述第一真实标签用于表征所述自适应视觉原型与所述自适应视觉原型对应的文本原型之间的匹配关系;
[0045]第二损失模块,用于基于所述自适应查询表征、所述自适应视觉原型与第二真实标签,获取查询损失,所述第二真实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态小样本持续学习的图像分类方法,其特征在于,应用于第t个持续学习任务,t≥1,所述方法包括:获取输入图像,所述输入图像至少包括查询图像和支持图像;基于所述输入图像,获取输入数据,所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型;将所述视觉特征以及所述文本原型输入语义融合网络,以对所述视觉特征以及所述文本原型进行信息融合,获取自适应原型,所述自适应原型至少包括自适应视觉原型以及自适应查询表征;基于所述自适应视觉原型与所述自适应查询表征,获取所述查询图像的类别概率。2.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法,其特征在于,所述自适应原型还包括自适应文本原型,在获取自适应原型之后,所述方法还包括:基于所述自适应视觉原型、所述自适应文本原型与第一真实标签,获取语义一致性损失,所述第一真实标签用于表征所述自适应视觉原型与所述自适应视觉原型对应的文本原型之间的匹配关系;基于所述自适应查询表征、所述自适应视觉原型与第二真实标签,获取查询损失,所述第二真实标签为所述查询表征的真实类别标签;基于所述语义一致性损失以及所述查询损失,对所述语义融合网络进行优化,得到优化的语义融合网络;将所述优化的语义融合网络作为第t+1个持续学习任务的所述语义融合网络。3.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法,其特征在于,基于所述输入图像,获取输入数据,包括:基于所述支持图像所属的类别,获取语义信息;将所述支持图像以及所述查询图像输入卷积子网络,分别得到所述支持图像对应的视觉原型以及所述查询图像对应的查询表征;将所述语义信息输入投影子网络,得到所述文本原型;将所述查询表征以及所述视觉原型进行连接处理,得到所述视觉特征。4.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法,其特征在于,所述语义融合网络包括自注意力模块以及前向传播层,将所述视觉特征以及所述文本原型输入语义融合网络,以对所述视觉特征以及所述文本原型进行信息融合,获取自适应原型,包括:将所述视觉特征以及所述文本原型输入所述自注意力模块,以使所述视觉特征以及所述文本原型中的一者基于自注意力机制,对另一者进行信息融合以及信息增强,得到第一视觉特征以及第一文本原型;对所述第一视觉特征、所述第一文本原型和所述文本原型进行加和以及归一化处理,得到增强的第一视觉特征以及增强的第一文本原型;将所述增强的第一视觉特征以及所述增强的第一文本原型输入所述前向传播层,以向隐空间进行映射,得到第二视觉特征以及第二文本原型;对所述第二视觉特征、所述第二文本原型和所述增强的第一文本原型进行加和以及归一化处理,得到所述自适应原型。
5.根据权利要求1所述的基于多模态小样本持续学习的图像分...

【专利技术属性】
技术研发人员:王鑫朱文武
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1