当前位置: 首页 > 专利查询>清华大学专利>正文

跨模态视觉对象检索方法及装置制造方法及图纸

技术编号:34995719 阅读:29 留言:0更新日期:2022-09-21 14:43
本申请涉及立体视觉对象跨模态检索技术领域,特别涉及一种跨模态视觉对象检索方法及装置,其中,方法包括:获取待查询立体视觉对象的多模态表示;将多模态表示输入至预先训练的模型中,得到待查询立体视觉对象在预设特征空间下的特征表示;计算特征表示与预设特征表示之间的距离,并利用距离输出待查询立体视觉对象的最终检索列表。由此,解决了相关技术中未能充分利用同一物体不同模态表示间的关联性和互补性,从而无法训练不同模态的表示映射到同一表示空间的投影矩阵,降低了跨模态视觉对象检索的性能精度等问题。象检索的性能精度等问题。象检索的性能精度等问题。

【技术实现步骤摘要】
跨模态视觉对象检索方法及装置


[0001]本申请涉及立体视觉对象跨模态检索
,特别涉及一种跨模态视觉对象检索方法及装置。

技术介绍

[0002]相关技术中,不同与二维视觉对象和立体视觉对象通常有着多种表达形式,例如:点云、体素、多视图、网格等,这些表示形式间有着天然的语义鸿沟,并且获取方法也不尽相同。当存在立体视觉对象的一种模态表示时,针对如何去检索到相似对象的另一种模态表示,现有的大部分方法尝试将不同模态的表示直接拉近到同一特征空间下,并取得了一定的效果。
[0003]然而,在相关技术中,由于立体视觉对象的跨模态检索方法不同模态表示形式间有天然的语义鸿沟,导致无法充分利用同一物体不同模态表示间的关联性和互补性,从而无法训练不同模态的表示映射到同一表示空间的投影矩阵,降低了跨模态视觉对象检索的性能精度,亟待改进。

技术实现思路

[0004]本申请提供一种跨模态视觉对象检索方法及装置,以解决相关技术中未能充分利用同一物体不同模态表示间的关联性和互补性,从而无法训练不同模态的表示映射到同一表示空间的投影矩阵,降低了跨模态视觉对象检索的性能精度等问题。
[0005]本申请第一方面实施例提供一种跨模态视觉对象检索方法,包括以下步骤:获取待查询立体视觉对象的多模态表示;将所述多模态表示输入至预先训练的模型中,得到所述待查询立体视觉对象在预设特征空间下的特征表示;计算所述特征表示与预设特征表示之间的距离,并利用所述距离输出所述待查询立体视觉对象的最终检索列表。
[0006]可选地,在本申请的一个实施例中,在将所述多模态表示输入至所述预先训练的模型之前,还包括:根据立体视觉对象的多模态表示的编码信息提取所述多模态的嵌入表示;根据所述多模态的嵌入表示构建模态内的多尺度超图结构,并基于所述多尺度超图结构,在不同模态间构建模态间消息传播通路;利用所述模态间消息传播通路将所述多模态的嵌入表示投影到所述预设特征空间,得到不同模态的特征表示;基于所述不同模态的特征表示对模型进行迭代训练,生成所述预先训练的模型。
[0007]可选地,在本申请的一个实施例中,所述根据立体视觉对象的多模态表示的编码信息提取所述多模态的嵌入表示,包括:确定所述立体视觉对象的数据模态;基于构建的模态特征的自编码网络,将所述不同模态的特征嵌入映射成相同维度的向量,得到所述多模态的嵌入表示。
[0008]可选地,在本申请的一个实施例中,所述根据所述多模态的嵌入表示构建模态内的多尺度超图结构,包括:构建所述每个模态的基于K近邻的超边组和基于距离的超边组;融合所述基于K近邻的超边组和基于距离的超边组,生成所任一模态内的多尺度超图结构。
[0009]可选地,在本申请的一个实施例中,所述利用所述模态间消息传播通路将所述多模态的嵌入表示投影到所述预设特征空间,包括:对所述任一模态,构建从所述任一模态投影到所述预设特征空间的投影矩阵,基于所述投影矩阵,嵌入用于评估两个嵌入表示的距离的距离度量函数。
[0010]可选地,在本申请的一个实施例中,所述基于所述不同模态的特征表示对模型进行迭代训练,生成所述预先训练的模型,包括:从由不同模态的特征表示得到的训练样本中采样多个正负样本对;对每个正负样本对三元组分别计算三元组损失及可训练参数的梯度,并将不同层的梯度进行回传,更新网络模型的参数,直至达到收敛条件,得到所述预先训练的模型。
[0011]本申请第二方面实施例提供一种跨模态视觉对象检索装置,包括:获取模块,用于获取待查询立体视觉对象的多模态表示;输入模块,用于将所述多模态表示输入至预先训练的模型中,得到所述待查询立体视觉对象在预设特征空间下的特征表示;输出模块,用于计算所述特征表示与预设特征表示之间的距离,并利用所述距离输出所述待查询立体视觉对象的最终检索列表。
[0012]可选地,在本申请的一个实施例中,本申请实施例的装置还包括:提取模块,用于根据立体视觉对象的多模态表示的编码信息提取所述多模态的嵌入表示;构建模块,用于根据所述多模态的嵌入表示构建模态内的多尺度超图结构,并基于所述多尺度超图结构,在不同模态间构建模态间消息传播通路;投影模块,用于利用所述模态间消息传播通路将所述多模态的嵌入表示投影到所述预设特征空间,得到不同模态的特征表示;生成模块,用于基于所述不同模态的特征表示对模型进行迭代训练,生成所述预先训练的模型。
[0013]可选地,在本申请的一个实施例中,所述提取模块包括:确定单元,用于确定所述立体视觉对象的数据模态;映射单元,用于基于构建的模态特征的自编码网络,将所述不同模态的特征嵌入映射成相同维度的向量,得到所述多模态的嵌入表示。
[0014]可选地,在本申请的一个实施例中,所述构建模块包括:构建单元,用于构建所述每个模态的基于K近邻的超边组和基于距离的超边组;融合单元,用于融合所述基于K近邻的超边组和基于距离的超边组,生成所述任一模态内的多尺度超图结构。
[0015]可选地,在本申请的一个实施例中,所述投影模块包括:投影单元,用于对所述任一模态,构建从所述任一模态投影到所述预设特征空间的投影矩阵;嵌入单元,用于基于所述投影矩阵,嵌入用于评估两个嵌入表示的距离的距离度量函数。
[0016]可选地,在本申请的一个实施例中,所述生成模块包括:采样单元,用于从由不同模态的特征表示得到的训练样本中采样多个正负样本对;更新单元,用于对每个正负样本对三元组分别计算三元组损失及可训练参数的梯度,并将不同层的梯度进行回传,更新网络模型的参数,直至达到收敛条件,得到所述预先训练的模型。
[0017]本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的跨模态视觉对象检索方法。
[0018]本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的跨模态视觉对象检索方法。
[0019]本申请实施例可以基于待查询立体视觉对象的多模态表示,从而得到待查询立体视觉对象在预设特征空间下的特征表示,进而计算特征表示与预设特征表示之间的距离,并利用距离输出待查询立体视觉对象的最终检索列表,充分利用多模态表示的同一性和协同性,进一步提升跨模态视觉对象检索的性能,即基于超图的多模态特征表示学习的方法,可以建立多模态表示间的信息通路,从而充分利用多模态表示的同一性和协同性,可以训练不同模态的表示映射到同一表示空间的投影矩阵,有效提升跨模态视觉对象检索的性能精度。由此,解决了相关技术中未能充分利用同一物体不同模态表示间的关联性和互补性,导致无法训练不同模态的表示映射到同一表示空间的投影矩阵,降低了跨模态视觉对象检索的性能精度等问题。
[0020]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0021]本申请上述的和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态视觉对象检索方法,其特征在于,包括以下步骤:获取待查询立体视觉对象的多模态表示;将所述多模态表示输入至预先训练的模型中,得到所述待查询立体视觉对象在预设特征空间下的特征表示;以及计算所述特征表示与预设特征表示之间的距离,并利用所述距离输出所述待查询立体视觉对象的最终检索列表。2.根据权利要求1所述的方法,其特征在于,在将所述多模态表示输入至所述预先训练的模型之前,还包括:根据立体视觉对象的多模态表示的编码信息提取所述多模态的嵌入表示;根据所述多模态的嵌入表示构建模态内的多尺度超图结构,并基于所述多尺度超图结构,在不同模态间构建模态间消息传播通路;利用所述模态间消息传播通路将所述多模态的嵌入表示投影到所述预设特征空间,得到不同模态的特征表示;基于所述不同模态的特征表示对模型进行迭代训练,生成所述预先训练的模型。3.根据权利要求2所述的方法,其特征在于,所述根据立体视觉对象的多模态表示的编码信息提取所述多模态的嵌入表示,包括:确定所述立体视觉对象的数据模态;基于构建的模态特征的自编码网络,将所述不同模态的特征嵌入映射成相同维度的向量,得到所述多模态的嵌入表示。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述多模态的嵌入表示构建模态内的多尺度超图结构,包括:构建所述每个模态的基于K近邻的超边组和基于距离的超边组;融合所述基于K近邻的超边组和基于距离的超边组,生成所述任一模态内的多尺度超图结构。5.根据权利要求4所述的方法,其特征在于,所述利用所述模态间消息传播通路将所述多模态的嵌入表示投影到所述预设特征空间,包括:对所述任一模态,构建从所述任一模态投影到所述预设特征空间的投影矩阵;基于所述投影矩阵,嵌入用于评估两个嵌入表示的距离的距离度量函数。6.根据权利要求...

【专利技术属性】
技术研发人员:高跃丰一帆闫循石
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1