面向开放场景的多模态视觉目标检索方法与系统技术方案

技术编号：37982114 阅读：22 留言：0更新日期：2023-06-30 09:57

本申请涉及一种面向开放场景的多模态视觉目标检索方法与系统，包括：生成视觉对象的多模态表示数据，将多模态表示数据投影到视觉对象的紧凑隐空间，得到视觉对象的紧凑表示数据；基于紧凑表示数据构建超图结构，通过超图结构学习开放类别和已知类别的高阶关联表示；基于高阶关联表示，通过预设的典型表示记忆模块生成未知类别的嵌入表示数据，利用预设的已知类别训练模型将未知类别的嵌入表示数据应用于开放场景下的视觉目标检索，得到未知类别的视觉对象。由此，解决了由于原始数据格式和学习网络设计不同，造成天然的语义鸿沟，且相关技术的检索方法无法预知未知类别的物体等问题，克服了不同模态表示的语义鸿沟，能推测未知类别的嵌入表示。未知类别的嵌入表示。未知类别的嵌入表示。

全部详细技术资料下载

【技术实现步骤摘要】
面向开放场景的多模态视觉目标检索方法与系统

[0001]本申请涉及视觉目标检索
，特别涉及一种面向开放场景的多模态视觉目标检索方法与系统。

技术介绍

[0002]视觉目标通常有着多种模态表示，如：点云、体素、多视图等等。而不同的由于原始数据格式和学习网络设计完全不同，因此有着天然的语义鸿沟。此外，面对开放场景下的视觉目标检索，传统的检索方法因无法预知未知类别的对象，均表现的不尽人意。而现实生活中充斥着大量的未知类别的物体，这对现有闭集训练的视觉目标检索算法的性能有着很糟糕的影响。因此，本申请实施例需要研究开放场景下的视觉目标检索系统，来拓展现有检索算法的应用场景，并提高面对为未知类别物体下检索性能的鲁棒性。
[0003]然而，目前针对开放场景下视觉目标检索方法主要有挑战有：(1)多模态表示语义鸿沟导致的多模态融合困难(2)未知类别视觉对象与已知类别的视觉对象关联难以建模(3)视觉对象特征提取器提取的特征缺少泛化性(4)检索的视觉目标的类别在训练时未知而带来的模型认知障碍。

技术实现思路

[000...

【技术保护点】

【技术特征摘要】
1.一种面向开放场景的多模态视觉目标检索方法，其特征在于，包括以下步骤：生成视觉对象的多模态表示数据，并将所述多模态表示数据投影到所述视觉对象的紧凑隐空间，得到所述视觉对象的紧凑表示数据；基于所述紧凑表示数据构建超图结构，并通过所述超图结构学习开放类别和已知类别的高阶关联表示；基于所述开放类别和所述已知类别的高阶关联表示，通过预设的典型表示记忆模块生成未知类别的嵌入表示数据，并利用预设的已知类别训练模型将所述未知类别的嵌入表示数据应用于开放场景下的视觉目标检索，得到所述未知类别的视觉对象。2.根据权利要求1所述的方法，其特征在于，所述生成视觉对象的多模态表示数据，包括：配置所述多模态表示数据的采集环境；基于所述采集环境，通过预设的捕捉器输出所述视觉对象的多种模态表示，并提取所述多种模态表示的基础特征，得到所述多模态表示数据。3.根据权利要求1所述的方法，其特征在于，所述将所述多模态表示数据投影到所述视觉对象的紧凑隐空间，得到所述视觉对象的紧凑表示数据，包括：构建所述多模态表示数据的自编码；基于预设的损失函数，训练所述多模态表示数据的自编码得到多模态自编码；通过所述多模态自编码，将所述多模态表示数据投影到所述视觉对象的紧凑隐空间，得到所述视觉对象的紧凑表示数据。4.根据权利要求1所述的方法，其特征在于，所述基于所述紧凑表示数据，构建超图结构，并通过所述超图结构学习开放类别和已知类别的高阶关联表示，包括：基于所述紧凑表示数据，利用预设的K近邻算法构建所述超图结构；基于预设的超图卷积迭代公式，学习所述超图结构的节点特征，得到所述开放类别和所述已知类别的高阶关联表示。5.根据权利要求1所述的方法，其特征在于，所述基于所述开放类别和所述已知类别的高阶关联表示，通过预设的典型表示记忆模块生成未知类别的嵌入表示数据，包括：计算所述紧凑表示数据和所述预设的典型表示记忆模块中每个记忆锚...

【专利技术属性】
技术研发人员：高跃，丰一帆，吉书仪，刘玉身，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人