一种基于多模态小样本持续学习的图像分类方法及产品技术

技术编号：38360548 阅读：11 留言：0更新日期：2023-08-05 17:30

本申请提供了一种基于多模态小样本持续学习的图像分类方法及产品，涉及图像处理技术领域，包括：获取输入图像；基于输入图像，获取输入数据，输入数据至少包括视觉特征以及所述视觉特征对应的文本原型；将视觉特征以及文本原型输入语义融合网络，以对视觉特征以及文本原型进行信息融合，获取自适应原型，自适应原型至少包括自适应视觉原型以及自适应查询表征；基于自适应视觉原型与自适应查询表征，获取查询图像的类别概率。本申请通过在小样本持续学习过程中，基于语义融合网络将隐藏在类别文本中语义信息与视觉信息进行融合，使模型在进行小样本持续学习时考虑语义信息的影响，从而极大地缓解了小样本持续学习过程中的灾难性遗忘问题。性遗忘问题。性遗忘问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态小样本持续学习的图像分类方法及产品

[0001]本申请实施例涉及图像处理
，具体而言，涉及一种基于多模态小样本持续学习的图像分类方法及产品。

技术介绍

[0002]小样本持续学习作为一种同时解决持续学习和小样本学习问题的范式，已经成为机器学习中一个充满挑战的问题。一个理想的小样本持续学习模型应当能够在新类别出现时区分所有已知类别，其中每个类别仅包含少量有标签数据。
[0003]然而，现有的小样本持续学习方法只考虑了视觉模态，侧重于在图像的单一模态的视觉信息上进行特征学习，忽略了类别之间的语义关联，这使得新类别的分布往往和旧类别发生重叠而难以区分，从而导致了严重的灾难性遗忘问题。因此，如何缓解小样本持续学习的灾难性遗忘问题，成为本领域技术人员当前亟待解决的技术问题。

技术实现思路

[0004]本申请实施例在于提供一种基于多模态小样本持续学习的图像分类方法及产品，旨在解决如何缓解小样本持续学习的灾难性遗忘的问题。
[0005]本申请实施例第一方面提供一种基于多模态小样本持续学习的图像分类方法，应用于第t个持续学习任务，t≥1，所述方法包括：
[0006]获取输入图像，所述输入图像至少包括查询图像和支持图像；
[0007]基于所述输入图像，获取输入数据，所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型；
[0008]将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，所述自适应原型...

【技术保护点】

【技术特征摘要】
1.一种基于多模态小样本持续学习的图像分类方法，其特征在于，应用于第t个持续学习任务，t≥1，所述方法包括：获取输入图像，所述输入图像至少包括查询图像和支持图像；基于所述输入图像，获取输入数据，所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型；将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，所述自适应原型至少包括自适应视觉原型以及自适应查询表征；基于所述自适应视觉原型与所述自适应查询表征，获取所述查询图像的类别概率。2.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法，其特征在于，所述自适应原型还包括自适应文本原型，在获取自适应原型之后，所述方法还包括：基于所述自适应视觉原型、所述自适应文本原型与第一真实标签，获取语义一致性损失，所述第一真实标签用于表征所述自适应视觉原型与所述自适应视觉原型对应的文本原型之间的匹配关系；基于所述自适应查询表征、所述自适应视觉原型与第二真实标签，获取查询损失，所述第二真实标签为所述查询表征的真实类别标签；基于所述语义一致性损失以及所述查询损失，对所述语义融合网络进行优化，得到优化的语义融合网络；将所述优化的语义融合网络作为第t+1个持续学习任务的所述语义融合网络。3.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法，其特征在于，基于所述输入图像，获取输入数据，包括：基于所述支持图像所属的类别，获取语义信息；将所述支持图像以及所述查询图像输入卷积子网络，分别得到所述支持图像对应的视觉原型以及所述查询图像对应的查询表征；将所述语义信息输入投影子网络，得到所述文本原型；将所述查询表征以及所述视觉原型进行连接处理，得到所述视觉特征。4.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法，其特征在于，所述语义融合网络包括自注意力模块以及前向传播层，将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，包括：将所述视觉特征以及所述文本原型输入所述自注意力模块，以使所述视觉特征以及所述文本原型中的一者基于自注意力机制，对另一者进行信息融合以及信息增强，得到第一视觉特征以及第一文本原型；对所述第一视觉特征、所述第一文本原型和所述文本原型进行加和以及归一化处理，得到增强的第一视觉特征以及增强的第一文本原型；将所述增强的第一视觉特征以及所述增强的第一文本原型输入所述前向传播层，以向隐空间进行映射，得到第二视觉特征以及第二文本原型；对所述第二视觉特征、所述第二文本原型和所述增强的第一文本原型进行加和以及归一化处理，得到所述自适应原型。
5.根据权利要求1所述的基于多模态小样本持续学习的图像分...

【专利技术属性】
技术研发人员：王鑫，朱文武，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人