场景检索方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36083051 阅读:12 留言:0更新日期:2022-12-24 10:57
本公开提供了一种场景检索方法、装置、电子设备及存储介质。本公开实施例中,场景检索方法可以包括:获取至少两幅观测图像及其观测视角;获取每幅所述观测图像的深度信息;根据所述观测图像的相机参数、所述观测图像的观测视角及所述观测图像的深度信息,构建每幅所述观测图像的视角锥;确定所述至少两幅观测图像中观测图像的视角锥的3D交并比,所述3D交并比表示观测图像间的场景观测相似度。本公开能够高效准确地确定图像间的场景观测相似度。高效准确地确定图像间的场景观测相似度。高效准确地确定图像间的场景观测相似度。

【技术实现步骤摘要】
场景检索方法、装置、电子设备及存储介质


[0001]本公开涉及一种场景检索方法、装置、电子设备及存储介质。

技术介绍

[0002]在诸如自主记忆泊车、智能物流小车、餐厅智能机器人送餐、无人机自主巡航等应用场景中,识别曾到过的场景,也即,场景重识别,十分重要。
[0003]此类应用场景中,第一次执行某个任务(例如,“将车辆停到自家车位”的任务)时,可以在智能机器人或者车辆中预先人为配置一条场景(例如,“自家车位”的场景)对应的运动路径并建立相应的场景地图,后续再执行该任务时,智能机器人或者车辆可先进行场景重识别、再按照场景对应的运动路径自主循迹或者基于相应的场景地图自主避障导航。因此,场景重识别准确与否,对于任务的自主执行至关重要。
[0004]此外,对于同步导航与定位(Simultaneous Localization And Mapping,SLAM)系统而言,建立场景地图的过程中误差累积是难以避免的问题。如果能识别出当前所处位置是自身曾经到达过的某处场景(即成功回环检测),那么就能很大程度上消除累积误差,从而使得建立的场景地图与真实场景尽可能一致。在第二次重定位时,如果能识别出当前所处位置是当初建立场景地图中的同一处场景,那么对于后续自身的姿态估计帮助极大。
[0005]同时由于激光雷达较为昂贵,民用GPS局限在米级精度且隧道、地下车库等部分场景不可用,而视觉相机具有通用、便宜、小巧便携等优点,因而利用视觉相机进行场景重识别应用广泛。
[0006]相关技术中,基于地理位置的图像/视频检索主要基于GPS信息作为图像的真实地理位置进行模型预训练,由于民用GPS精度仅能够达到米级且部分场景的误差甚至会达到10米左右,因此基于地理位置的图像/视频检索误差常常过大。同时,由于GPS信息不含视角信息,若仅根据GPS坐标之间的距离衡量两个图像是否对应同一个场景,可能会因视角不同而造成两个图像的检索错误。例如,同一位置的两个图像,若其视角完全不同,则很可能被错误地识别为对应两个不同场景。
[0007]针对基于地理位置的图像/视频检索误差较大、易于识别错误的情况,目前的解决方法主要有两种。一种方法是将图像划分为多个区域,通过模型迭代训练判断各个小区域是否是同一个场景,这样一定程度上解决了相机朝向不同造成图像部分观测区域重叠的问题,但是这种会使计算量变大多倍,计算资源消耗大,硬件成本高。另一种方法是基于三元损失的方法,这种方式通过大量的计算和迭代训练弥补视角变化对场景检索的影响,训练速度过慢,十分耗费计算资源,并且模型精度不高。

技术实现思路

[0008]为了解决上述技术问题中的至少一个,本公开提供了一种场景搜索方法、装置、电子设备及存储介质。
[0009]本公开的第一方面提供了一种场景检索方法,包括:
[0010]获取至少两幅观测图像及其观测视角;
[0011]获取每幅所述观测图像的深度信息;
[0012]根据所述观测图像的相机参数、所述观测图像的观测视角及所述观测图像的深度信息,构建每幅所述观测图像的视角锥;
[0013]确定所述至少两幅观测图像中观测图像的视角锥的3D交并比,所述3D交并比表示观测图像间的场景观测相似度。
[0014]一些实施方式中,所述观测图像的深度信息包括:所述观测图像的平均深度、最大深度和所述观测图像中深度值小于预定深度阈值的特征点比例。
[0015]一些实施方式中,获取每幅所述观测图像的深度信息,包括:
[0016]提取观测图像的关键点;
[0017]对所述观测图像的关键点执行均匀化处理;
[0018]对所述观测图像进行深度估计以获得所述观测图像的深度图,将所述均匀化处理后的关键点映射到所述深度图上,以确定各关键点的深度值;
[0019]根据各关键点的深度值确定所述观测图像的平均深度、最大深度和所述观测图像中深度值小于预定深度阈值的特征点比例。
[0020]一些实施方式中,所述构建每幅所述观测图像的视角锥,包括:
[0021]所述观测图像中深度值小于预定深度阈值的特征点比例大于预定比例阈值时,基于所述观测图像的平均深度确定视角锥的观测深度;
[0022]所述观测图像中深度值小于预定深度阈值的特征点比例小于或等于所述预定比例阈值时,基于所述观测图像的最大深度确定视角锥的观测深度。
[0023]一些实施方式中,所述构建每幅所述观测图像的视角锥,还包括:根据所述观测图像对应的相机内参确定所述视角锥的视野角度值;根据所述观测图像对应的相机位置确定所述视角锥的顶点坐标和视角方向。
[0024]一些实施方式中,所述估算所述至少两幅观测图像中观测图像的视角锥3D交并比,包括:
[0025]对两幅观测图像的视角锥分别提取轴对齐包围盒最小外包围框;
[0026]对两幅观测图像的视角锥的轴对齐包围盒最小外包围框进行碰撞检测,以判断两幅观测图像的视角锥的轴对齐包围盒最小外包围框是否存在交叠;
[0027]在两幅观测图像的视角锥的轴对齐包围盒最小外包围框存在交叠时,合并两个视角锥的轴对齐包围盒最小外包围框,基于视角锥的空间分布函数和蒙特卡洛算法对得到的合并外包围框计算3D交并比;其中,所述两幅观测图像由两个相机拍摄。
[0028]一些实施方式中,所述基于视角锥的空间分布函数为符号距离函数SDF,SDF根据所述视角锥的参数构建,所述视角锥的参数包括:视角锥的顶点坐标、视角锥的视角方向、视角锥的观测深度、视角锥的视野角度值。
[0029]一些实施方式中,所述3D交并比指示所述两个相机的相交观测区域在所述两个相机的相并观测区域中的占比。
[0030]一些实施方式中,还包括:根据所述至少两幅观测图像中观测图像的视角锥的3D交并比,获得基于图像的回环检测、图像场景检索或视频场景检索的结果。
[0031]一些实施方式中,还包括:根据所述至少两幅观测图像中各观测图像的视角锥的
3D交并比训练场景检索深度学习模型,所述场景检索深度学习模型用于获得基于图像的回环检测、图像场景检索或视频场景检索的结果。
[0032]一些实施方式中,所述场景检索深度学习模型的损失函数为:
[0033][0034]其中,des
i
、des
j
分别为两幅观测图像对应的全局描述子;Fov
i,j
为两幅观测图像的视角锥的3D交并比,η代表指定间隔,dis表示距离函数。
[0035]本公开的第二方面提供了一种场景检索装置,包括:
[0036]第一获取单元,用于获取至少两幅观测图像及其观测视角;
[0037]第二获取单元,用于获取每幅所述观测图像的深度信息;
[0038]视角锥构建单元,用于根据所述观测图像的相机参数、所述观测图像的观测视角及所述观测图像的深度信息,构建每幅所述观测图像的视角锥;
[0039]相似度估算单元,用于确定所述至少两幅观测图像中观本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景检索方法,其特征在于,包括:获取至少两幅观测图像及其观测视角;获取每幅所述观测图像的深度信息;根据所述观测图像的相机参数、所述观测图像的观测视角及所述观测图像的深度信息,构建每幅所述观测图像的视角锥;确定所述至少两幅观测图像中观测图像的视角锥的3D交并比,所述3D交并比表示观测图像间的场景观测相似度。2.根据权利要求1所述的场景检索方法,其特征在于,所述观测图像的深度信息包括:所述观测图像的平均深度、最大深度和所述观测图像中深度值小于预定深度阈值的特征点比例。3.根据权利要求1所述的场景检索方法,其特征在于,获取每幅所述观测图像的深度信息,包括:提取观测图像的关键点;对所述观测图像的关键点执行均匀化处理;对所述观测图像进行深度估计以获得所述观测图像的深度图,将所述均匀化处理后的关键点映射到所述深度图上,以确定各关键点的深度值;根据各关键点的深度值确定所述观测图像的平均深度、最大深度和所述观测图像中深度值小于预定深度阈值的特征点比例。4.根据权利要求1或2所述的场景检索方法,其特征在于,所述构建每幅所述观测图像的视角锥,包括:所述观测图像中深度值小于预定深度阈值的特征点比例大于预定比例阈值时,基于所述观测图像的平均深度确定视角锥的观测深度;所述观测图像中深度值小于预定深度阈值的特征点比例小于或等于所述预定比例阈值时,基于所述观测图像的最大深度确定视角锥的观测深度。5.根据权利要求4所述的场景检索方法,其特征在于,所述构建每幅所述观测图像的视角锥,还包括:根据所述观测图像对应的相机内参确定所述视角锥的视野角度值;根据所述观测图像对应的相机位置确定所述视角锥的顶点坐标和视角方向。6.根据权利要求1或5所述的场景检索方法,其特征在于,所述估算所述至少两幅观测图像中观测图像的视角锥3D交并比,包括:对两幅观测图像的视角锥分别提取轴对齐包围盒最小外包围框;对两幅观测图像的视角锥的轴对齐包围盒最小外包围框进行碰撞检测,以判断两幅观测图像的视角锥的轴对齐包围盒最小外包围框是否存在交叠;在两幅观测图像的视角锥的轴对齐包围盒最小外包围框存在交叠时,合并两个视角锥的轴对齐包围盒最小外包围框,基于视角锥的空间分布函数和蒙特卡洛算法对得到的合并外包围框计算3D交并比;其中,所述两幅观测图像由两个相机拍摄;优选地,所述基于视角锥的空间分布函数为符号距离函数SDF,SDF根据所述视角锥的参数构建,所述视角锥的参数包括:视角锥的顶点坐标、视角锥的视角方向、视角锥的观测
深度、视角锥的视野角度值;优选地,所述3D交并比指示所述两个相机的相交观测区域在所述两个相机的相并观测区域中的占比;优选地,还包括:根据所述至少两幅观测图像中观测图像的视角锥的3D交并比,获得基于图像的回环检测、图像场景检索或视频场景检索的结果;优选地,还包括:根据所述至少两幅观测图像中各观测图像的视角锥的3D交并比训练场景检索深度学习模型,所述场景检索深度学习模型用于获得基于图像的回环检测、图像场景检索或视频场景检索的结果;优选地,所述场景检索深度学习模型的损失函数为:其中,des
i
、des
j
分别为两幅观测图像对应的全局描述子;Fov
i,j
为两幅观测图像的视角锥的3D交并比,η代表...

【专利技术属性】
技术研发人员:殷佳豪刘志励范圣印李雪
申请(专利权)人:北京易航远智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1