用于全向地点识别的提升语义图嵌入制造技术

技术编号:37347766 阅读:26 留言:0更新日期:2023-04-22 21:43
用于全向地点识别的提升语义图嵌入。一种用于地点识别的计算机实现的方法,包括:获得标识第一场景的图像的信息;识别该图像中的多个像素簇;生成与像素簇相关联的特征向量集;生成场景的图;响应于确定与第一像素簇相关联的第一属性类似于与第二像素簇相关联的第二属性,在第一节点和第二节点之间添加第一边;生成图的向量表示;计算图的向量表示和与第二场景相关联的参考向量表示之间的相似性的度量;以及响应于确定相似性的度量小于阈值而确定第一场景和第二场景与同一地点相关联。定第一场景和第二场景与同一地点相关联。定第一场景和第二场景与同一地点相关联。

【技术实现步骤摘要】
用于全向地点识别的提升语义图嵌入


[0001]本文描述的实施例总体地涉及用于地点识别(place recognition)的方法和装置以及用于训练用于地点识别的图嵌入网络(graph embedding network)的方法和装置。

技术介绍

[0002]视觉地点识别包括在给定相机的当前视图的情况下确定相机的位置。地点识别是计算机视觉和机器人技术中的重要问题,并且适用于广泛的应用,包括但不限于自动驾驶和增强现实。
[0003]视觉地点识别的已知方法是将问题表述为图像检索任务。该方法通常涉及从捕获的图像中提取特征。然后将捕获的图像的特征与已从参考数据集中的图像中提取的特征进行比较,其中参考数据集中的每个图像都与标识地点的信息(例如GPS坐标)相关联。在该方法中,通过基于提取的特征确定参考数据集中的哪个图像在视觉上与捕获的图像最相似来获得与捕获的图像相关联的地点。
[0004]用于地点识别的基于视觉特征的方法通常难以处理捕获的图像和参考数据集中的关联图像之间的外观变化。这些变化可能是由于照明和外观变化(例如,由于年度季节性变化),以及捕获的图像和参考图像之间的视点变化。鉴于此,需要视觉地点识别的新的方法。
附图说明
[0005]将从仅以示例的方式做出并结合附图进行的以下的详细描述中更全面地理解和领会布置,其中:
[0006]图1A示出了根据示例的机器人100;
[0007]图1B示出了视觉地点识别的示例用例;
[0008]图2示出了根据实施例的视觉地点识别的方法;
[0009]图3示出了根据示例的使用“Mask R

CNN”的实例分割的实现;
[0010]图4示出了根据示例的用于生成一组检测(detection)的方法;
[0011]图5A示出了等矩形(equirectangular)图像的示例;
[0012]图5B示出了根据实施例生成的实例分割的视觉表示;
[0013]图5C示出了根据实施例生成的深度信息的视觉表示;
[0014]图6A示出了根据实施例的叠加有节点和边的场景的3D表示;
[0015]图6B示出了根据示例的场景图的2D可视化;
[0016]图7示出了根据实施例的图嵌入网络;
[0017]图8示出了根据实施例的由图嵌入网络701的传播层703执行的方法;
[0018]图9示出了根据实施例的训练图嵌入网络的方法;
[0019]图10示出了根据实施例的“GraphVLADt”和“NetVLADt”在“OmniClevr”数据集上针对每种验证类型的召回率;
[0020]图11示出了根据实施例的系统;
[0021]图12示出了可以用于实现根据实施例的方法的硬件的示意图。
具体实施方式
[0022]根据第一方面,提供了一种用于地点识别的计算机实现的方法。该方法包括:获得标识第一场景的图像的信息;在标识所述图像的信息中标识多个像素簇(cluster),所述多个像素簇包括:第一像素簇;和第二像素簇;从标识所述图像的信息生成特征向量集,该特征向量集包括:与第一像素簇相关联的第一特征向量;和与第二像素簇相关联的第二特征向量;生成所述场景的图,该图包括:表示第一像素簇的第一节点,该第一节点与第一特征向量相关联;和表示第二像素簇的第二节点,该第二节点与第二特征向量相关联;响应于确定与第一像素簇相关联的第一属性类似于与第二像素簇相关联的第二属性,在第一节点和第二节点之间添加第一边;生成所述图的向量表示;计算所述图的向量表示和参考向量表示之间的相似性的度量,其中参考向量表示与第二场景相关联;以及响应于确定所述相似性的度量小于阈值,确定第一场景和第二场景与同一地点相关联。
[0023]在实施例中,像素簇是一组像素。
[0024]在实施例中,标识多个像素簇包括标识多个对象实例,并且其中第一像素簇对应于第一对象实例,并且第二像素簇对应于第二对象实例。
[0025]在实施例中,在标识所述图像的信息中标识多个对象实例包括使用在等矩形图像上训练的机器学习模型来标识这多个对象实例。
[0026]在实施例中,对象实例是对象的出现,并且对象是物理对象。
[0027]在实施例中,特征向量是表示像素簇(可选地表示对象)的数值特征的n维向量。
[0028]在实施例中,第一属性是第一像素簇的3D坐标位置,第二属性是第二像素簇的3D坐标位置,并且当第一像素簇的3D坐标位置与第二像素簇的3D坐标位置之间的距离小于距离阈值时,第一属性类似于第二属性。
[0029]在实施例中,确定距离包括确定欧几里得距离。
[0030]在实施例中,距离阈值为3米。
[0031]在实施例中,第一像素簇对应于第一对象实例,第二像素簇对应于第二对象实例,第一属性是与第一对象实例相关联的第一类别标签,第二属性是与第二对象实例相关联的第二类别标签,并且其中当第一类别标签与第二类别标签相同(即,第一对象实例和第二对象实例涉及同一类别的对象)时,第一属性类似于第二属性。
[0032]在实施例中,第一像素簇对应于第一对象实例,第二像素簇对应于第二对象实例,第一属性是与第一对象实例相关联的第一类别标签,第二属性是与第二对象实例相关联的第二类别标签,并且其中当第一类别标签和第二类别标签属于第一组类别时,第一属性类似于第二属性(例如,当第一组类别包括{“椅子”,“桌子”}时,第一属性“椅子”类似于第二属性“桌子”)。
[0033]在实施例中,图像包括多个像素,并且标识图像的信息包括来自这多个像素中的每个像素的RGB值。
[0034]在实施例中,该方法还包括:使用相机(可选地通过使用该相机拍摄照片)捕获标识第一场景的图像的信息。
[0035]在实施例中,图像是场景的视觉表示,场景的图像被划分为多个像素,并且其中标识图像的信息包括与每个像素相关联的值(例如RGB值),其中每个像素的值是使用相机拍摄场景的图片并通过读取该相机内的传感器来获得值而生成的。
[0036]在实施例中,该方法还包括:响应于确定相似性的度量小于阈值,输出第一场景的位置是与第二场景相关联的位置的指示。
[0037]在实施例中,该方法由机器人执行,并且该方法还包括将当前位置的指示用于室内导航。
[0038]在实施例中,图表示包括多个节点并可选地包括连接这些节点的多个边。
[0039]在实施例中,图的向量表示是使用数字来表示图的特征(即,节点、边以及节点之间的空间关系)的数值向量。
[0040]在实施例中,图是场景的图表示。
[0041]在实施例中,图的向量表示和参考向量表示之间的相似性的度量是两个向量之间的欧几里得距离。
[0042]在实施例中,该方法还包括从参考集获得参考图表示,该参考集包括多个其他参考图表示。
[0043]在实施例中,该方法还包括计算图的向量表示和参考集中的每个参考图表示之间的相似性的度量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于地点识别的计算机实现的方法,包括:获得标识第一场景的图像的信息;在标识所述图像的信息中标识多个像素簇,所述多个像素簇包括:第一像素簇;和第二像素簇;从标识所述图像的信息生成特征向量集,该特征向量集包括:与所述第一像素簇相关联的第一特征向量;和与所述第二像素簇相关联的第二特征向量;生成所述场景的图,该图包括:表示所述第一像素簇的第一节点,该第一节点与所述第一特征向量相关联;和表示所述第二像素簇的第二节点,该第二节点与所述第二特征向量相关联;响应于确定与所述第一像素簇相关联的第一属性类似于与所述第二像素簇相关联的第二属性,在所述第一节点和所述第二节点之间添加第一边;生成所述图的向量表示;计算所述图的向量表示和参考向量表示之间的相似性的度量,其中所述参考向量表示与第二场景相关联;以及响应于确定所述相似性的度量小于阈值,确定所述第一场景和所述第二场景与同一地点相关联。2.根据权利要求1所述的计算机实现的方法,其中,所述图像包括多个像素,所述多个像素包括与所述第一像素簇相关联的第一组像素和与所述第二像素簇相关联的第二组像素,并且生成所述特征向量集包括:生成与所述第一组像素中的第一像素相关联的第三特征向量;生成与所述第一组像素中的第二像素相关联的第四特征向量;以及通过聚合所述第三特征向量和所述第四特征向量来生成所述第一特征向量。3.根据任一前述权利要求所述的计算机实现的方法,其中,生成所述图的向量表示包括:生成第一节点向量,其中该第一节点向量与所述第一节点相关联;生成第二节点向量,其中该第二节点向量与所述第二节点相关联;以及基于所述第一节点向量与所述第二节点向量的和来生成查询图表示。4.根据权利要求3所述的计算机实现的方法,其中,所述图中的所述第二节点通过所述第一边连接到所述图中的所述第一节点,并且生成所述第一节点向量包括:将所述第一节点向量设置为等于所述第一特征向量;基于所述第一节点向量和所述第二节点向量来生成所述第二节点和所述第一节点之间的消息;以及基于所述第一节点向量的值和所述消息来更新所述第一节点向量。5.根据权利要求4所述的计算机实现的方法,其中,生成所述第二节点和所述第一节点之间的消息包括:基于所述第一节点向量和所述第二节点向量,使用第一机器学习模型来生成第一组门控权重;通过将所述第一节点向量与所述第一组门控权重相乘来门控所述第一节点向量,以形成第一门控向量;
基于所述第一节点向量和所述第二节点向量,使用第二机器学习模型来生成第二组门控权重;通过将所述第二节点向量与所述第二组门控权重相乘来门控所述第二节点向量,以形成第二门控向量;以及基于所述第一门控向量与所述第二门控向量的和来生成所述消息。6.根据权利要求5所述的计算机实现的方法,其中:所述场景的图还包括表示第三像素簇的第三节点,该第三节点与第三特征向量相关联,并且该第三节点通过第二边连接到所述第一节点;并且所述方法还包括:生成第三节点向量,该第三节点向量与所述第三节点相关联;以及通过以下处理,基于所述第一节点向量和所述第三节点向量来生成所述第三节点和所述第一节点之间的第二消息:基于所述第一节点向量和所述第三节点向量,使用所述第一机器学习模型来生成第三组门控权重;通过将所述第一节点向量与所述第三组门控权重相乘来门控所述第一节点向量,以形成第三门控向量;基于所述第一节点向量和所述第三节点向量,使用所述第二机器学习模型来生成第四组门控权重;通过将所述第三节点向量与所述第四组门控权重相乘来门控所述第三节点向量,以形成第四门控向量;基于所述第三门控向量与所述第四门控向量的和来生成所述第二消息;并且其中:基于所述第一节点向量的值和所述消息来更新所述第一节点向量包括:基于所述第一节点向量的值以及所述消息与所述第二消息的和来更新所述第一节点向量。7.根据权利要求5或6所述的计算机实现的方法,其中,基于所述第一节点向量的值和所述消息来更新所述第一节点向量包括:基于所述第一节点向量和所述消息,使用第三机器学习模型来生成第五组门控权重;通过将所述第一节点向量与所述第五组门控权重相乘来门控所述第一节点向量,以形成第五门控向量;基于所述第一节点向量和所述消息,使用第四机器学习模型来生成第六组门控权重;通过将所述消息与所述第六组门控权重相乘来门控所述消息,以形成第六门控向量;以及基于所述第五门控向量与所述第六门控向量的和来更新所述第一节点向量。8.根据权利要求3至7中的任一项所述的计算机实现的方法,其中,基于所述第一节点向量与所述第二节点向量的和来生成所述查询图表示包括:基于所述第一节点向量,使用第五机器学习模型来生成第七组门控权重;基于所述第一节点向量,使用第六机器学习模型来生成所述第一节点向量的第一节点表示;将所述第七组门控权重与所述第一节点向量的第一节点表示相乘,以获得最终的第一
节点表示;基于所述第二节点向量,使用所述第五机器学习模型来生成第八组门控权重;基于所述第二节点向量,使用所述第六机器学习模型来生成所述第二节点向量的第二节点表示;将所述第八组门控权重与所述第二节点向量的第二节点表示相乘,以获得最终的第二节点表示;以及通过将所述最终的第一节点表示和所述最终的第二节点表示相加来生成所述查询图表示。9.根据权利要求8所述的计算机实现的方法,其中,所述第五机器学习模型和所述第六机器学习模型实现行内核,使得所述最终的第一节点表示和所述最终的第二节点表示各自包括具有单列的矩阵。10.根据权利要求8或9所述的计算机实现的方法,其中,生成所述查询图表示包括:确定所述最终的第一节点表示与所述最终的第二节点表示的和;以及减少所述和的维度,以形成所述查询图表示。11.根据权利要求4所述的计算机实现的方法,其中,生成所述第一节点向量还包括:响应于更新所述第一节点向量而增加时间值;确定所述时间值是否小于时间阈值;以及响应于确定所述时间值小于所述时间阈值:基于所述第一节点向量和所述第二节点向量来重新生成所述第二节点和所述第一节点之间的消息;以及基于所述第一节点向量的值和所述消息来更新所述第一节点向量。12.根据任一前述权利要求所述的计算机实现的...

【专利技术属性】
技术研发人员:张超I
申请(专利权)人:株式会社东芝
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1