一种端到端迭代优化的高精度相机相对位姿估计方法技术

技术编号：40598938 阅读：3 留言：0更新日期：2024-03-12 22:02

本发明专利技术公开了一种端到端迭代优化的高精度相机相对位姿估计方法，获取相对视角的图像对，通过亚像素特征检测，提取图像的亚像素特征点和特征描述；循环使用迭代匹配和位姿估计框架(IMP)，获取匹配点对和相对位姿；所述匹配和位姿估计都是通过Transformer和CNN构成网络，每次迭代，通过姿态一致性损失函数将几何信息隐式嵌入到模块中，使其能够逐步预测匹配点对和相对位姿参数；在循环过程中动态地丢弃潜在的误匹配点，避免冗余更新，降低Transformer模型计算时的二次时间复杂度。本发明专利技术可用于多视角场景下，能够准确获取相机的相对位姿信息，可广泛用于计算机视觉领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，具体涉及一种端到端迭代优化的高精度相机相对位姿估计方法。

技术介绍

1、相机相对位姿估计是确定两个或多个相机在不同时间或不同位置拍摄图像之间的相对位姿，即两张图拍摄时相对于彼此的平移、旋转信息。它对于理解三维空间中的相机运动和场景几何关系非常重要，是基于运动恢复结构(sfm)、三维重建算法中的关键步骤。

2、传统相机相对位姿估计方法通常包括特征提取、特征匹配、异值处理和位姿估计，流程中各任务通常分阶段依次执行相机相对位姿估计算法中由于纹理和结构的重复，以及环境和视角的变化，产生的匹配通常包含许多异常点，异常点会降低位姿估计的精度。为了减少异常点对位姿估计的影响，一些研究采用额外的网络来过滤潜在的异常点，以提高位姿估计的精度。尽管这些方法一定程度上有了更好的效果，但它的性能在很大程度上受到初始匹配质量的限制，并在测试时需要额外的时间来过滤异常点。也有如superglue等高级匹配器通过固定次数迭代的transformer模型直接使用来自所有关键点的全局信息来提高匹配质量，但是，在存在二次时间复杂度，降低了效率。同时，相对位姿估计的精度与提取的特征点的精度有很大关系，而如superpoint等的深度学习的特征的提取网络，往往输出的特征点位置都是像素级别的，提取精度还有待提高。

3、针对上述相机相对位姿估计存在异常点和匹配精度的问题，本专利技术提供了一种端到端迭代优化的高精度相机相对位姿估计方法，通过亚像素特征检测和迭代匹配和位姿估计框架，在保证精度的同时，避免冗余更新，降低了模型计算

技术实现思路

1、本专利技术的目的在于提供一种能提取亚像素特征点、通过迭代匹配和迭代位姿估计以实现获取高精度相机相对位姿信息。

2、为了实现上述目的，本专利技术提供了一种端到端迭代优化的高精度相机相对位姿估计方法，包括以下步骤：

3、利用相机在多视角采集各种环境场景的图像，从每一种场景的所有图像中随机选取一对图像组成图像对，多个场景连续选取组成图像对集合，从而获取图像对；

4、对所述不同视角图片进行亚像素特征检测，获取亚像素特征点和特征描述；

5、将不同视角图片的亚像素特征点和特征描述向量送入迭代匹配和位姿估计框架，由自适应几何感知采样更新特征点对，直到迭代结束，输出匹配点对和相对位姿。

6、所述亚像素特征检测，通过超分辨率重建与特征检测模型，由亚像素提取和插值分别获得亚像素特征点和特征描述向量；

7、所述超分辨率重建，通过双线性插值对输入图像放大s倍，将图片由(h,w)尺寸映射到(sh,sw)的尺寸；

8、所述特征检测模型由编码器、解码器a、解码器b组成；编码器由4组编码块组成，每块包括2个3×3卷积大小的卷积层，编码块之间采用最大池化；解码器a和解码器b都由一个3×3和1×1大小的卷积层组成；分别输出尺寸为(sh,sw,1)的结果a，和尺寸为(sh,sw,d)的结果b；

9、所述插值，对结果a和结果b进行后处理，通过双三次插值映射为(h,w,d)和(h,w,1)，获取特征描述；其中d为特征描述的向量维度；

10、所述亚像素提取，对结果b进行后处理，通过非极大抑制方法提取稀疏的特征点位置；通过高斯拟合获取特征点位置的亚像素位置，拟合公式如下：

11、

12、其中，(xc，yc)是亚像素点位置，(xij，yij)为像素点坐标附近9×9区域的稀疏点位置，pij为该点概率值。

13、所述迭代匹配和位姿估计，将不同视角图片的亚像素特征点和特征描述送入迭代匹配和位姿估计框架，循环迭代匹配和位姿估计框架，通过自适应几何感知采样更新特征点对，直到迭代结束，输出匹配点对结果和两个视角的相对位姿；

14、所述自适应几何感知采样，循环中，特征点匹配得到相应的得分，根据得分进行选择性更新特征点，只保留高质量的匹配点；若当前循环和上一次循环的相对位姿误差小于设定的阈值，循环提前停止；通过注意力机制计算特征描述之间的相似度即匹配得分，根据匹配得分进行自适应几何感知采样，动态选择更新特征点和描述符；根据预设阈值筛选匹配得分高于阈值的特征点；如果选择高阈值，只择匹配得分最高的一部分特征点；如果选择低阈值，选择更多的特征点；仅保留通过自适应几何感知采样筛选后特征点和对应的描述符，舍弃其他特征点；每次迭代结束时，检查当前估计的相对位姿与上一次迭代的相对位姿之间的误差，如果误差小于预设阈值，提前停止迭代。

15、所述匹配，通过特征编码把亚像素特征点和特征描述映射为整体的特征向量；继续通过注意力机制进行特征编码；采用sinkhorn算法获得匹配距离矩阵，计算匹配得分，获得匹配结果；

16、所述的位姿估计，合并两对视角的匹配点；通过transformer结构编码获得注意力特征；使用基于残差结构的cnn网络进一步编码特征；分别输入旋转解码器和位移解码器，输出组成相对位姿；

17、进一步的，所述亚像素特征检测中，训练数据集设计：将像素级别的特征点标签映射成高斯分布的二维图谱作为训练标签；满足下述二维正态分布的：

18、

19、其中，图谱服从参数为μ1、μ2、σ的二维正态分布，其像素点中心在(μ1，μ2)，每一个特征点的坐标对应公式的(μ1，μ2)值，以特征点中心像素尺寸为9×9的区域作为一个特征点的分布，使得数值呈高斯分布。

20、进一步的，所述亚像素特征检测中，损失函数设计：设计一种“峰状”的形状正则化损失来确保特征点周围的输出值呈现“中心峰值、四周低谷”的状态，整体损失由分类损失l1、形状正则化损失l2，分别为：

21、

22、

23、其中xxy是中心点坐标，label是高斯分布的二维图谱标签，heatmap是经过亚像素特征提取的输出结果。

24、本专利技术的一种端到端迭代优化的高精度相机相对位姿估计方法，采用一种亚像素特征检测方法，使用高斯拟合提取亚像素级别的特征点；在特征匹配和位姿估计的基础上，采用迭代匹配和位姿估计的方法，通过自适应几何感知采样更新特征点对，在保证精度的同时，避免冗余更新，降低了模型计算时的二次时间复杂度，克服了基于深度学习的像素级别特征检测算法精度不足和特征匹配异值处理存在的复杂度高、运算量大的弊端。

本文档来自技高网...

【技术保护点】

1.一种端到端迭代优化的高精度相机相对位姿估计方法，其特征在于，包括下述步骤：

2.如权利要求1所述亚像素特征检测，其特征在于，通过超分辨率重建与特征检测模型，由亚像素提取和插值分别获得亚像素特征点和特征描述向量。

3.如权利要求2所述超分辨率重建，其特征在于，通过双线性插值对输入图像放大s倍，将图片由(H,W)尺寸映射到(sH,sW)的尺寸。

4.如权利要求2所述特征检测模型，其特征在于，由编码器、解码器A、解码器B组成；编码器由4组编码块组成，每块包括两个卷积层，编码块之间采用最大池化；解码器A和解码器B都由两个卷积层组成，分别输出尺寸为(sH,sW,1)的结果A，和尺寸为(sH,sW,D)的结果B。

5.如权利要求2所述插值，其特征在于，对结果A和结果B进行后处理，通过双三次插值映射为(H,W,D)和(H,W,1)，获取特征描述；其中D为特征描述的向量维度。

6.如权利要求2所述亚像素提取，其特征在于，对结果B进行后处理，通过非极大抑制方法提取稀疏的特征点位置；通过高斯拟合获取特征点位置的亚像素位置。

8.如权利要求7所述自适应几何感知采样，其特征在于，在循环中特征点匹配得到相应的得分，根据得分进行选择性更新特征点，只保留高质量的匹配点；若当前循环和上一次循环的相对位姿误差小于设定的阈值，循环提前停止；通过注意力机制计算特征描述之间的相似度即匹配得分，根据匹配得分进行自适应几何感知采样，动态选择更新特征点和描述符；根据预设阈值筛选匹配得分高于阈值的特征点；如果选择高阈值，只择匹配得分最高的一部分特征点；如果选择低阈值，选择更多的特征点；仅保留通过自适应几何感知采样筛选后特征点和对应的描述符，舍弃其他特征点；每次迭代结束时，检查当前估计的相对位姿与上一次迭代的相对位姿之间的误差，如果误差小于预设阈值，提前停止迭代。

9.如权利要求7所述的位姿估计，其特征在于，合并两对视角的匹配点；通过Transformer结构编码获得注意力特征；使用基于残差结构的CNN网络进一步编码特征；分别输入旋转解码器和位移。

...

【技术特征摘要】

1.一种端到端迭代优化的高精度相机相对位姿估计方法，其特征在于，包括下述步骤：

2.如权利要求1所述亚像素特征检测，其特征在于，通过超分辨率重建与特征检测模型，由亚像素提取和插值分别获得亚像素特征点和特征描述向量。

3.如权利要求2所述超分辨率重建，其特征在于，通过双线性插值对输入图像放大s倍，将图片由(h,w)尺寸映射到(sh,sw)的尺寸。

4.如权利要求2所述特征检测模型，其特征在于，由编码器、解码器a、解码器b组成；编码器由4组编码块组成，每块包括两个卷积层，编码块之间采用最大池化；解码器a和解码器b都由两个卷积层组成，分别输出尺寸为(sh,sw,1)的结果a，和尺寸为(sh,sw,d)的结果b。

5.如权利要求2所述插值，其特征在于，对结果a和结果b进行后处理，通过双三次插值映射为(h,w,d)和(h,w,1)，获取特征描述；其中d为特征描述的向量维度。

6.如权利要求2所述亚像素提取，其特征在于，对结果b进行后处理，通过非极大抑制方法提取稀疏的特征点位置；通过高斯拟合获取特征点位置的亚像素位置。

7.如权利要求1所述迭代匹配和位姿估计...

【专利技术属性】
技术研发人员：彭智勇，肖博，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人