视觉定位方法及相关装置、设备制造方法及图纸

技术编号:30551629 阅读:14 留言:0更新日期:2021-10-30 13:32
本申请公开了一种视觉定位方法及相关装置、设备,其中,视觉定位方法包括:提取待定位图像的第一特征图像和第二特征图像;其中,第一特征图像包含局部特征信息,第二特征图像包含全局特征信息;融合第一特征图像和第二特征图像,得到融合特征图像;基于融合特征图像,检测得到待定位图像中的目标地标点;基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息,得到待定位图像的位姿参数;其中,待定位图像是对预设场景拍摄得到的,场景地图是对预设场景进行三维建模得到的。上述方案,能够提高视觉定位的准确性和鲁棒性,特别是在存在弱纹理、重复纹理的情况下,能够提高视觉定位的准确性和鲁棒性。性。性。

【技术实现步骤摘要】
视觉定位方法及相关装置、设备


[0001]本申请涉及计算机视觉
,特别是涉及一种视觉定位方法及相关装置、设备。

技术介绍

[0002]随着电子信息技术的发展,增强现实、虚拟现实、混合现实等应用等到了越来越广泛的应用。诸如此类应用通常要求较优的视觉定位准确性和鲁棒性,以达到更好的视觉效果,增强用户体验。
[0003]目前,通常以类似热力图的方式检测局部极值,从而检测出图像中地标点,然而在图像中存在弱纹理、重复纹理等情况下,地标点的检出难度陡增,造成无法估计出相机位姿。有鉴于此,如何提高视觉定位的准确性和鲁棒性成为亟待解决的问题。

技术实现思路

[0004]本申请提供一种视觉定位方法及相关装置、设备。
[0005]本申请第一方面提供了一种视觉定位方法,包括:提取待定位图像的第一特征图像和第二特征图像;其中,第一特征图像包含局部特征信息,第二特征图像包含全局特征信息;融合第一特征图像和第二特征图像,得到融合特征图像;基于融合特征图像,检测得到待定位图像中的目标地标点;基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息,得到待定位图像的位姿参数;其中,待定位图像是对预设场景拍摄得到的,场景地图是对预设场景进行三维建模得到的。
[0006]因此,提取待定位图像的第一特征图像和第二特征图像,且第一特征图像包含局部特征信息,第二特征图像包含全局特征信息,在此基础上,融合第一特征图像和第二特征图像,得到融合特征图像,并基于融合特征图像,检测得到待定位图像中的目标地标点,从而基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息,得到待定位图像的位姿参数,且待定位图像是对预设场景拍摄得到的,场景地图是对预设场景进行三维建模得到的,由于第一特征图像包括局部特征信息,第二特征图像包含全局特征信息,而融合特征图像又是融合两者所得到的,故能够大大扩展融合特征图像中像素点的感受野,从而能够有利于大大提升位于弱纹理、重复纹理区域像素点的特征表示的准确性,进而能够提高目标地标点的准确性,在此基础上再基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息得到位姿参数,有利于提升视觉定位的准确性和鲁棒性。
[0007]其中,视觉定位方法还包括:基于注意力机制、多尺度特征提取网络中至少一者,对第一特征图像处理,得到第二特征图像。
[0008]因此,基于注意力机制处理第一特征图像,图像中各个位置均能够获取到其他位置对其的重要程度,从而使得第二特征图像中像素点不仅能够包含像素点对应图像位置本身的特征信息,还能够根据重要程度参考到其他图像位置的特征信息,即能够从重要程度
角度获取全局特征信息,而基于多尺度特征提取网络处理第一特征图像,能够从不同尺度角度获取全局特征信息,故此通过从不同角度来获取全局特征信息,有利于提升第二特征图像的准确性。
[0009]其中,基于注意力机制、多尺度特征提取网络中至少一者,对第一特征图像处理,得到第二特征图像包括:基于注意力机制对第一特征图像进行处理,得到第一全局图像,并将多尺度提取网络提取的多尺度特征图像进行融合,得到第二全局图像;融合第一全局图像和第二全局图像,得到第二特征图像。
[0010]因此,基于注意力机制对第一特征图像进行处理,得到第一全局图像,并将多尺度提取网络提取到的多尺度特征图像进行融合,得到第二全局图像,在此基础上再融合第一全局图像和第二全局图像,得到第二特征图像,故能够同时从重要程度角度和不同尺度角度两种角度获取全局特征信息,能够有利于进一步提高第二特征图像的准确性。
[0011]其中,第一全局图像和第二全局图像均为多通道图像;融合第一全局图像和第二全局图像,得到第二特征图像,包括:将第一全局图像和第二全局图像进行通道混洗,得到第三全局图像;对第三全局图像进行通道融合,得到第二特征图像。
[0012]因此,在第一全局图像和第二全局图像均为多通道图像的情况下,将第一全局图像和第二全局图像进行通道混洗,得到第三全局图像,并对第三全局图像进行通道融合,得到第二特征图像,能够有利于充分融合第一全局图像和第二全局图像,从而能够有利于进一步提高第二特征图像的准确性。
[0013]其中,基于融合特征图像,检测得到待定位图像中的目标地标点,包括:利用地标检测模型处理融合特征图像,得到第一地标预测图像和第一方向预测图像;对第一地标预测图像和第一方向预测图像进行分析,得到目标地标点;其中,目标地标点为预设场景的若干地标点中的至少一个,若干地标点是从预设场景的场景地图中选择得到的,第一地标预测图像包括待定位图像中像素点的预测地标属性,第一方向预测图像包括待定位图像中像素点的第一方向属性,预测地标属性用于标识像素点对应的地标点,第一方向属性包括指向地标投影的第一方向信息,地标投影表示像素点对应的地标点在待定位图像中的投影位置。
[0014]因此,通过利用地标检测模型处理融合特征图像,得到第一地标预测图像和第一方向预测图像,第一地标预测图像包括待定位图像中像素点的预测地标属性,第一方向预测图像包括待定位图像中像素点的第一方向属性,预测地标属性用于标识像素点对应的地标点,第一方向属性包括指向地标投影的第一方向信息,地标投影表示像素点对应的地标点在待定位图像中的投影位置,在此基础上,再对第一地标预测图像和第一方向预测图像进行分析,得到目标地标点,由于第一地标预测图像包括各个像素点所对应的地标点,而第一方向预测图像包括各个像素点指向地标投影的方向信息,故能够大大降低弱纹理、重复纹理、动态环境等因素对视觉定位的影响,提高定位鲁棒性。
[0015]其中,地标检测模型包括地标预测网络,利用地标检测模型处理融合特征图像,得到第一地标预测图像包括:利用地标预测网络对融合特征图像进行解码,得到第一特征预测图像;其中,第一特征预测图像包括待定位图像中像素点的第一特征表示;对于每一像素点,基于局部敏感哈希处理像素点的第一特征表示,得到像素点的预测地标属性;基于待定位图像中各个像素点的预测地标属性,得到第一地标预测图像。
[0016]因此,地标检测模型包括地标预测网络,并利用地标预测网络对融合特征图像进行解码,得到第一特征预测图像,且第一特征预测图像包括待定位图像中像素点的第一特征表示,对于每一像素点,再基于局部敏感哈希处理像素点的第一特征表示,得到像素点的预测地标属性,从而基于待定位图像中各个像素点的预测地标属性,得到第一地标预测图像,由于基于局部敏感哈希来确定每一像素点的预测地标属性,故能够有利于大大减少计算量,提高视觉定位的响应速度。
[0017]其中,基于局部敏感哈希处理像素点的第一特征表示,得到像素点的预测地标属性,包括:基于局部敏感哈希映射像素点的第一特征表示,确定像素点所在的第一目标分区;其中,第一目标分区属于多个第一哈希分区,多个第一哈希分区由若干地标点的地标特征表示经局部敏感哈希处理得到,地标特征表示是在地标检测模型训练收敛之后得到的;选取第一目标分区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉定位方法,其特征在于,包括:提取待定位图像的第一特征图像和第二特征图像;其中,所述第一特征图像包含局部特征信息,所述第二特征图像包含全局特征信息;融合所述第一特征图像和所述第二特征图像,得到融合特征图像;基于所述融合特征图像,检测得到所述待定位图像中的目标地标点;基于所述目标地标点在所述待定位图像中的第一位置信息和所述目标地标点在场景地图中的第二位置信息,得到所述待定位图像的位姿参数;其中,所述待定位图像是对预设场景拍摄得到的,所述场景地图是对所述预设场景进行三维建模得到的。2.根据权利要求1所述的方法,其特征在于,还包括:基于注意力机制、多尺度特征提取网络中至少一者,对所述第一特征图像处理,得到所述第二特征图像。3.根据权利要求2所述的方法,其特征在于,所述基于注意力机制、多尺度特征提取网络中至少一者,对所述第一特征图像处理,得到所述第二特征图像,包括:基于所述注意力机制对所述第一特征图像进行处理,得到第一全局图像,并将所述多尺度提取网络提取的多尺度特征图像进行融合,得到第二全局图像;融合所述第一全局图像和所述第二全局图像,得到所述第二特征图像。4.根据权利要求3所述的方法,其特征在于,所述第一全局图像和所述第二全局图像均为多通道图像;所述融合所述第一全局图像和所述第二全局图像,得到所述第二特征图像,包括:将所述第一全局图像和所述第二全局图像进行通道混洗,得到第三全局图像;对所述第三全局图像进行通道融合,得到所述第二特征图像。5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述融合特征图像,检测得到所述待定位图像中的目标地标点,包括:利用地标检测模型处理所述融合特征图像,得到第一地标预测图像和第一方向预测图像;对所述第一地标预测图像和所述第一方向预测图像进行分析,得到所述目标地标点;其中,所述目标地标点为所述预设场景的若干地标点中的至少一个,所述若干地标点是从所述预设场景的场景地图中选择得到的,所述第一地标预测图像包括所述待定位图像中像素点的预测地标属性,所述第一方向预测图像包括所述待定位图像中像素点的第一方向属性,所述预测地标属性用于标识所述像素点对应的地标点,所述第一方向属性包括指向地标投影的第一方向信息,所述地标投影表示所述像素点对应的地标点在所述待定位图像中的投影位置。6.根据权利要求5所述的方法,其特征在于,所述地标检测模型包括地标预测网络,所述利用地标检测模型处理所述融合特征图像,得到第一地标预测图像包括:利用所述地标预测网络对所述融合特征图像进行解码,得到第一特征预测图像;其中,所述第一特征预测图像包括所述待定位图像中像素点的第一特征表示;对于每一所述像素点,基于局部敏感哈希处理所述像素点的第一特征表示,得到所述像素点的预测地标属性;基于所述待定位图像中各个所述像素点的预测地标属性,得到所述第一地标预测图像。
7.根据权利要求6所述的方法,其特征在于,所述基于局部敏感哈希处理所述像素点的第一特征表示,得到所述像素点的预测地标属性,包括:基于所述局部敏感哈希映射所述像素点的第一特征表示,确定所述像素点所在的第一目标分区;其中,所述第一目标分区属于多个第一哈希分区,所述多个第一哈希分区由所述若干地标点的地标特征表示经所述局部敏感哈希处理得到,所述地标特征表示是在所述地标检测模型训练收敛之后得到的;选取所述第一目标分区内的所述地标点,作为第一候选地标点;基于所述像素点的第一特征表示分别与各个所述第一候选地标点的地标特征表示之间的相似度,得到所述像素点的预测地标属性。8.根据权利要求1至7任一项所述的方法,其特征在于,所述目标地标点是利用地标检测模型检测得到的,且所述目标地标点为所述预设场景的若干地标点中的至少一个,所述若干地标点是从所述预设场景的场景地图中选择得到的,所述若干地标点分别位于所述场景地图各个子区域的预设位置处,所述地标检测模型的训练步骤包括:分别确定所述子区域和所述地标点在样本图像的投影区域和投影位置;基于所述投影区域和所述投影位置,确定所述...

【专利技术属性】
技术研发人员:章国锋鲍虎军黄昭阳周晗周晓巍李鸿升
申请(专利权)人:深圳市慧鲤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1