当前位置: 首页 > 专利查询>吉林大学专利>正文

一种跨模态搜索的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37276316 阅读:18 留言:0更新日期:2023-04-20 23:43
本申请提供了一种跨模态搜索的方法、装置、电子设备及存储介质,该方法包括:基于三维物体的点云数据,对三维物体进行语义分割,得到三维物体的多个部件;根据多个部件和三维物体的点云数据,得到三维物体的物体特征,物体特征包括多个部件的部件特征;确定三维物体的物体特征与多个候选文本的语义特征之间的相似度,语义特征包括对应的候选文本中多个词的词向量;将多个候选文本中语义特征与物体特征之间的相似度最大的候选文本,确定为跨模态搜索出的与三维物体最匹配的文本。该方法能够高效快速地提取三维物体的物体特征,同时基于局部对齐的搜索方式提高了跨模态搜索的精度,使得跨模态搜索更加高效准确。得跨模态搜索更加高效准确。得跨模态搜索更加高效准确。

【技术实现步骤摘要】
一种跨模态搜索的方法、装置、电子设备及存储介质


[0001]本申请涉及跨模态搜索领域,并且更具体地,涉及跨模态搜索领域中一种跨模态搜索的方法、装置、电子设备及存储介质。

技术介绍

[0002]在互联网技术的发展历程中,大量的数据成为了其发展的产物。例如生活中常见的视频数据、音频数据、图像数据、文本数据。当人们需要搜索查询数据时,可以通过在搜索引擎中搜索例如上述视频数据、音频数据、图像数据、文本数据中的任意一种或多种类型数据进行查询,从而得到对应的查询结果。
[0003]当用户通过上述任意一种类型的数据进行查询或搜索的过程称为“单模态搜索”。对应的,当用户通过上述任意多种类型的数据进行查询或搜索的过程称为“多模态搜索”过程。
[0004]示例性的,在多模态搜索过程中,常见的一种搜索方式是跨模态搜索,具体是利用一种类型或者模态的数据搜索得到另一种类型或者模态的数据。例如利用图像模态的数据搜索得到文本模态的数据,或者利用文本模态的数据搜索得到图像模态的数据。
[0005]一种可能的实现方式中,在对三维(three

dimensional,简称3D)模型或者三维物体和文本进行跨模态搜索的过程中,可以将三维物体的物体特征和文本特征或者语义特征映射为一个全局向量,并在全局向量上计算三维物体

文本之间的相似度分数,上述跨模态搜索的过程称为“全局对齐搜索”过程。
[0006]上述全局对齐搜索的方式只能将三维物体和文本提取为一个特征向量,当遇到结构复杂的三维物体或者语义信息丰富的文本时,提取的信息或者特征有限,可能导致计算精度低的问题。
[0007]此外,上述三维物体通常采用体素或者多视图来表示,由于体素表示的方式整体数据量大而有效信息占比低,在利用深度神经网络进行特征提取时计算量比较大;在采用多视图表示三维物体时,可能需要对多张不同角度的图片进行特征提取和融合,导致三维物体在特征提取时可能或存在误差且工作量大。
[0008]综上,如何避免跨模态搜索过程中计算精度低、信息提取不准确成为了亟需解决的问题。

技术实现思路

[0009]本申请提供了一种跨模态搜索的方法、装置、电子设备及存储介质,该方法能够高效快速地提取三维物体的物体特征,同时基于局部对齐的搜索方式提高了跨模态搜索的精度,使得跨模态搜索更加高效准确。
[0010]第一方面,提供了一种跨模态搜索的方法,该方法包括:基于三维物体的点云数据,对该三维物体进行语义分割,得到该三维物体的多个部件;根据该多个部件和该多个三维物体的点云数据,得到该三维物体的物体特征,该物体特征包括该多个部件的部件特征;
确定该三维物体的物体特征与多个候选文本的语义特征之间的相似度,该语义特征包括对应的候选文本中多个词的词向量;将该多个候选文本中语义特征与该物体特征之间的相似度最大的候选文本,确定为跨模态搜索出的与该三维物体最匹配的文本。
[0011]在上述技术方案中,在对数据实现跨模态搜索的过程中,本申请提出了一种跨模态搜索的方法,具体过程是首先基于三维物体的点云数据,对三维物体进行语义分割,得到三维物体的多个部件,再进一步通过得到的多个部件和三维物体的点云数据,得到三维物体的物体特征。通过将得到的物体特征与文本库中的多个候选文本的语义特征计算相似度,得到与三维物体对应的相似度最大的文本。上述过程通过对三维物体的点云数据进行处理,最终得到三维物体的物体特征,使得三维物体的特征提取更加精确,并且通过将相似度最大的文本作为跨模态搜索出的与三维物体最匹配的文本,保证了跨模态搜索过程的准确性。
[0012]结合第一方面,在某些可能的实现方式中,该确定该三维物体的物体特征与多个候选文本的语义特征之间的相似度,包括:将该三维物体的物体特征和该多个候选文本的语义特征输入跨模态搜索模型;通过该跨模态搜索模型,确定该三维物体的物体特征和该多个候选文本的语义特征之间的推土机距离。
[0013]结合第一方面和上述实现方式,在某些可能的实现方式中,该确定该三维物体的物体特征与多个候选文本的语义特征之间的推土机距离,包括:对于该多个候选文本中的任意一个候选文本,确定该三维物体的每一个部件的部件特征与该候选文本的每一个词的词向量之间的推土机距离;对该每一个部件的部件特征与该候选文本的每一个词的词向量之间的推土机距离进行融合处理,得到该三维物体的物体特征和该候选文本的语义特征之间的推土机距离。
[0014]在上述技术方案中,在确定三维物体的物体特征与多个候选文本的语义特征之间的推土机距离时,由于文本的语义特征包括多个词向量,三维物体的物体特征包括了多个部件特征,因此可以通过将每一个词向量和每一个部件的部件特征两两计算推土机距离的局部对齐的搜索方式,然后融合得到最终的三维物体的物体特征与文本的语义特征之间的推土机距离,保证了在对三维物体进行跨模态匹配时的准确度,提高了匹配精度。
[0015]结合第一方面和上述实现方式,在某些可能的实现方式中,该基于三维物体的点云数据,对该三维物体进行语义分割,得到该三维物体的多个部件,包括:将该三维物体的点云数据输入至语义分割模型,获取该三维物体的每一个点云在不同维度下的点特征,其中,最大维度下的每一个点云的点特征组成该三维物体的全局特征;将该每一个点云在该不同维度下的点特征,以及该三维物体的全局特征进行拼接处理,得到该三维物体的目标特征;对该目标特征对应的每一个点云进行分类,得到该三维物体进行语义分割后的该多个部件。
[0016]结合第一方面和上述实现方式,在某些可能的实现方式中,该根据该多个部件和该三维物体的点云数据,得到该三维物体的物体特征,包括:通过该语义分割模型,对该每一个点云在不同维度下的点特征和该每一个点云的颜色信息进行融合处理,得到该多个点云中的每一个点云的点嵌入特征;将该每一个点云的点嵌入特征与该多个部件进行融合处理,得到该三维物体的物体特征。
[0017]在上述技术方案中,提出了一种得到三维物体的物体特征的方案,首先是将三维
物体的每一个点云在不同维度的点特征以及每一个点云的颜色信息进行融合,得到三维物体的每一个点云的点嵌入特征,再将每一个点云的点嵌入特征和得到的多个部件进行融合处理,得到最终的物体特征。上述过程考虑了每一个点云的点特征以及分割后的多个部件之间的匹配和对应关系,保证了得到三维物体的物体特征过程的精确性和准确性,从而保证了跨模态搜索的高效性。
[0018]结合第一方面和上述实现方式,在某些可能的实现方式中,该方法还包括:将该多个候选文本中的每一个候选文本输入至文本特征提取模型,获取包含该每一个候选文本的上下文信息的多个词向量,其中,该每一个候选文本的语义特征包括该每一个候选文本对应的多个词向量。
[0019]结合第一方面和上述实现方式,在某些可能的实现方式中,该方法还包括:获取与样本三维物体对应的正样本文本的第一语义特征,以及负样本文本的第二语义特征;确定该样本三维物体的物体特征与该第一语义特征之间的推土本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态搜索的方法,其特征在于,所述方法包括:基于三维物体的点云数据,对所述三维物体进行语义分割,得到所述三维物体的多个部件;根据所述多个部件和所述三维物体的点云数据,得到所述三维物体的物体特征,所述物体特征包括所述多个部件的部件特征;确定所述三维物体的物体特征与多个候选文本的语义特征之间的相似度,所述语义特征包括对应的候选文本中多个词的词向量;将所述多个候选文本中语义特征与所述物体特征之间的相似度最大的候选文本,确定为跨模态搜索出的与所述三维物体最匹配的文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述三维物体的物体特征与多个候选文本的语义特征之间的相似度,包括:将所述三维物体的物体特征和所述多个候选文本的语义特征输入跨模态搜索模型;通过所述跨模态搜索模型,确定所述三维物体的物体特征和所述多个候选文本的语义特征之间的推土机距离。3.根据权利要求2所述的方法,其特征在于,所述确定所述三维物体的物体特征与多个候选文本的语义特征之间的推土机距离,包括:对于所述多个候选文本中的任意一个候选文本,确定所述三维物体的每一个部件的部件特征与所述候选文本的每一个词的词向量之间的推土机距离;对所述每一个部件的部件特征与所述候选文本的每一个词的词向量之间的推土机距离进行融合处理,得到所述三维物体的物体特征和所述候选文本之间的推土机距离。4.根据权利要求1或2所述的方法,其特征在于,所述基于三维物体的点云数据,对所述三维物体进行语义分割,得到所述三维物体的多个部件,包括:将所述三维物体的点云数据输入至语义分割模型,获取所述三维物体的每一个点云在不同维度下的点特征,其中,最大维度下的每一个点云的点特征组成所述三维物体的全局特征;将所述每一个点云在所述不同维度下的点特征,以及所述三维物体的全局特征进行拼接处理,得到所述三维物体的目标特征;对所述目标特征对应的每一个点云进行分类,得到所述三维物体进行语义分割后的所述多个部件。5.根据权利要求4所述的方法,其特征在于,所述根据所述多个部件和所述三维物体的点云数据,得到所述三维物体的物体特征,包括:通过所述语义分割模型,对所述每一个点云在不同维度下的点特征和所述每一个点云的颜色信息进行融合处理,得到所述多个点云中的每一个点云的点嵌入特征;将所述每一个点云的点嵌入特征与所述多个部件进行...

【专利技术属性】
技术研发人员:唐川杨溪吴博剑韩治中常毅
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1