一种基于语义误差图像的视觉定位方法及装置制造方法及图纸

技术编号:26766870 阅读:11 留言:0更新日期:2020-12-18 23:44
本说明书一个或多个实施例提供一种基于语义误差图像的视觉定位方法及装置,包括对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对;对目标图像进行语义分割处理,得到目标图像的二维语义图像,根据二维语义图像的各像素的语义信息,确定各匹配对的语义信息;根据各匹配对,构建包括至少一个假设位姿的假设位姿池;对于每个假设位姿,构建重投影误差图像和语义误差图像;根据每个重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。通过利用语义误差构成的语义误差图像进行最佳位姿的筛选,即使场景发生较大的变化,也能够达到良好的定位效果。

【技术实现步骤摘要】
一种基于语义误差图像的视觉定位方法及装置
本说明书一个或多个实施例涉及图像处理
,尤其涉及一种基于语义误差图像的视觉定位方法及装置。
技术介绍
视觉定位是根据图像、三维点云等数据获取目标周围的信息,从而得到目标的空间位置及方向,即得到目标的位姿估计,在机器人定位导航、自动驾驶车辆导航、增强现实、三维重建等领域得到了广泛应用。目前的视觉定位方法一般分为以下三种:一种是基于三维结构的定位方法,在场景环境变化大、场景中存在大量重复结构、场景的弱纹理、无纹理结构、强光照变化、运动模糊、强视点变化等情况下,该方法的定位精度会大大下降,甚至可能失败;第二种是基于图像的定位方法,其主要是通过从图像数据库中检索到的与目标图像最相似的图片进行位姿估计,定位精度不高;第三种是基于学习模型的定位方法,预先学习训练模型,利用模型进行位姿估计,该方法难以处理较大的场景,且每个场景都需要构建模型,不具有通用性。由于上述方法都存在图像相似度检索,在实际应用中,光线、季节等变化因素都会对场景造成很大影响,图像之间的结构重叠会大大减少,导致定位效果下降。
技术实现思路
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于语义误差图像的视觉定位方法及装置,在场景变化较大的情况下具有较高的定位精度。基于上述目的,本说明书一个或多个实施例提供了一种基于语义误差图像的视觉定位方法,包括:对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的所述目标图像的像素点与所述三维场景模型的三维点;对所述目标图像进行语义分割处理,得到所述目标图像的二维语义图像,所述二维语义图像的每个像素点具有对应的语义信息,根据所述二维语义图像的各像素的语义信息,确定各匹配对的语义信息;根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;对于所述假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;所述语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将所述三维语义图像按照当前假设位姿重投影得到二维图像,将所述二维图像的每个理论像素点的语义信息赋予所述二维语义图像的对应像素点的语义信息后,由所述二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。可选的,构建所述假设位姿池的方法是:从所有匹配对中随机选取四个匹配对,根据PNP算法和选取出的四个匹配对,计算得到一个假设位姿,由所有匹配对的随机组合所计算得到的所有假设位姿,构成所述假设位姿池。可选的,所述假设位姿的计算方法为:(5)其中,R为旋转矩阵,t为平移矩阵。可选的,所述根据每个假设位姿的重投影误差图像和语义误差图像,选取出重投影误差最小且语义误差最小的假设位姿作为位姿估计包括:根据每个假设位姿对应的重投影误差图像,统计正确位置总数;根据每个假设位姿对应的语义误差图像,统计正确语义总数;选取出正确位置总数最大且正确语义总数最大的假设位姿作为最佳的位姿估计。可选的,根据每个假设位姿对应的重投影误差图像,统计正确位置总数,包括:对于每个假设位姿,j=1,2…n,将三维语义图像按照假设位姿重投影为二维图像,任意一个三维点的位置坐标,投影得到的二维图像的理论像素点的理论位置坐标表示为:(6)其中,、、为三维点在x、y、z方向上的位置坐标,C为相机投影矩阵;二维图像的理论像素点的理论位置坐标,与所述二维语义图像的像素点的实际位置坐标存在重投影误差为:(7)根据重投影误差构建得到重投影误差图像,设置匹配对内层阈值,有:(8)若重投影误差小于内层阈值,该假设位姿投影得到的二维图像的理论像素点与所述二维语义图像的对应像素点位置一致,为正确位置;对于每个假设位姿对应的重投影误差图像,计算内点总数,统计正确位置总数为:(9)可选的,根据根据每个假设位姿对应的语义误差图像,统计正确语义总数的方法是:判断所述二维图像的理论像素点的语义信息与三维点的语义信息之间存在语义误差:(10)对于每个假设位姿对应的语义误差图像,统计正确语义总数:(11)本说明书实施例还提供一种基于语义误差图像的视觉定位装置,包括:匹配模块,用于对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的所述目标图像的像素点与所述三维场景模型的三维点;语义分割模块,用于对所述目标图像进行语义分割处理,得到所述目标图像的二维语义图像,所述二维语义图像的每个像素点具有对应的语义信息,根据所述二维语义图像的各像素的语义信息,确定各匹配对的语义信息;位姿池构建模块,用于根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;图像构建模块,用于对于所述假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;所述语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将所述三维语义图像按照当前假设位姿重投影得到二维图像,将所述二维图像的每个理论像素点的语义信息赋予所述二维语义图像的对应像素点的语义信息后,由所述二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;位姿估计模块,用于根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。可选的,所述位姿池构建模块,用于从所有匹配对中随机选取四个匹配对,根据PNP算法和选取出的四个匹配对,计算得到一个假设位姿,由所有匹配对的随机组合所计算得到的所有假设位姿,构成所述假设位姿池。可选的,所述假设位姿的计算方法为:(5)其中,R为旋转矩阵,t为平移矩阵。可选的,所述位姿估计模块,用于根据每个假设位姿对应的重投影误差图像,统计正确位置总数;根据每个假设位姿对应的语义误差图像,统计正确语义总数;选取出正确位置总数最大且正确语义总数最大的假设位姿作为最佳的位姿估计。从上面所述可以看出,本说明书一个或多个实施例提供的基于语义误差图像的视觉定位方法及装置,通过对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对;对目标图像进行语义分割处理,得到目标图像的二维语义图像,根据二维语义图像的各像素的语义信息,确定各匹配对的语义信息;根据各匹配对,构建包括至少一个假设位姿的假设位姿池;对于每个假设位姿,构建重投影误差图像和语义误差图像;根据每个重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。通过利用语义误差构成的语义误差图像进行最佳位姿的筛选,即使场景发生本文档来自技高网...

【技术保护点】
1.一种基于语义误差图像的视觉定位方法,其特征在于,包括:/n对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的所述目标图像的像素点与所述三维场景模型的三维点;/n对所述目标图像进行语义分割处理,得到所述目标图像的二维语义图像,所述二维语义图像的每个像素点具有对应的语义信息,根据所述二维语义图像的各像素的语义信息,确定各匹配对的语义信息;/n根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;/n对于所述假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;所述语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将所述三维语义图像按照当前假设位姿重投影得到二维图像,将所述二维图像的每个理论像素点的语义信息赋予所述二维语义图像的对应像素点的语义信息后,由所述二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;/n根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。/n

【技术特征摘要】
1.一种基于语义误差图像的视觉定位方法,其特征在于,包括:
对目标图像进行特征提取,将提取出的各特征点与构建的三维场景模型的各三维点进行特征匹配,得到至少一个匹配对,每个匹配对为特征匹配的所述目标图像的像素点与所述三维场景模型的三维点;
对所述目标图像进行语义分割处理,得到所述目标图像的二维语义图像,所述二维语义图像的每个像素点具有对应的语义信息,根据所述二维语义图像的各像素的语义信息,确定各匹配对的语义信息;
根据至少一个匹配对,构建包括至少一个假设位姿的假设位姿池;
对于所述假设位姿池中的每个假设位姿,构建重投影误差图像和语义误差图像;所述语义误差图像为:由所有匹配对中的三维点构成三维语义图像,将所述三维语义图像按照当前假设位姿重投影得到二维图像,将所述二维图像的每个理论像素点的语义信息赋予所述二维语义图像的对应像素点的语义信息后,由所述二维图像的各理论像素点的语义信息与对应匹配的三维点的语义信息之间的语义误差构成的图像;
根据每个假设位姿的重投影误差图像和语义误差图像,确定出重投影误差最小且语义误差最小的假设位姿作为位姿估计。


2.根据权利要求1所述的方法,其特征在于,构建所述假设位姿池的方法是:
从所有匹配对中随机选取四个匹配对,根据PNP算法和选取出的四个匹配对,计算得到一个假设位姿,由所有匹配对的随机组合所计算得到的所有假设位姿,构成所述假设位姿池。


3.根据权利要求2所述的方法,其特征在于,所述假设位姿的计算方法为:

(5)
其中,R为旋转矩阵,t为平移矩阵。


4.根据权利要求1所述的方法,其特征在于,所述根据每个假设位姿的重投影误差图像和语义误差图像,选取出重投影误差最小且语义误差最小的假设位姿作为位姿估计包括:
根据每个假设位姿对应的重投影误差图像,统计正确位置总数;
根据每个假设位姿对应的语义误差图像,统计正确语义总数;
选取出正确位置总数最大且正确语义总数最大的假设位姿作为最佳的位姿估计。


5.根据权利要求4所述的方法,其特征在于,根据每个假设位姿对应的重投影误差图像,统计正确位置总数,包括:
对于每个假设位姿,j=1,2…n,将三维语义图像按照假设位姿重投影为二维图像,任意一个三维点的位置坐标,投影得到的二维图像的理论像素点的理论位置坐标表示为:

(6)
其中,、、为三维点在x、y、z方向上的位置坐标,C为相机投影矩阵;
二维图像的理论像素点的理论位置坐标,与所述二维语义图像的像素点的实际位置坐标存在重投影误差为:

(7)
根据重投影误差构建得到重投影误差图像,设置匹配对内层阈值,有...

【专利技术属性】
技术研发人员:蒋杰辛星康来邹银方玉杰魏迎梅谢毓湘
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1