一种基于单目的室内办公场景视觉定位方法及系统技术方案

技术编号：40341984 阅读：9 留言：0更新日期：2024-02-09 14:29

本发明专利技术涉及一种基于单目的室内办公场景视觉定位方法及系统，属于视觉定位技术领域，解决了现有单目SLAM存在的尺度不确定性和尺度漂移的问题。包括：对实时采集的每帧图像进行目标检测和跟踪，得到每帧图像的特征点信息和目标检测信息；当检测到二维码时，通过对极几何以及重投影误差的优化方法，估计出窗口内每帧图像对应的相机位姿，并转换到以二维码中心为原点的坐标系下；获取一帧新图像开始相机位姿优化处理，包括预测新图像对应的相机位姿，对窗口内每帧图像和新图像建立各误差函数，计算误差平方和最小的解，得到优化后的相机位姿和特征点逆深度，滑动窗口，继续获取一帧新图像，执行相机位姿优化处理。实现了室内办公场景的精准定位。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视觉定位，尤其涉及一种基于单目的室内办公场景视觉定位方法及系统。

技术介绍

1、slam(simultaneous localization and mapping，同时定位与地图构建)，视觉slam是利用视觉进行同时定位与建图的技术，基于单目的slam方案目前主要有orbslam、ptam、dso等，不过无论是哪一种单目的slam方案，都存在两个问题，一是尺度不确定性的问题，也就是无法得到客观实际的真实尺度，二是尺度漂移问题，也就是随着状态估计的累计误差不断的方法，会导致原来定义的相对尺度产生漂移。

2、为了解决上述两个问题，大多使用多传感器融合的方法，如使用两个单目相机的双目slam，双目slam可以静态计算深度，同时也避免了尺度不确定性和尺度漂移的问题，不过通过双目图像计算像素距离，计算量大，同时需要精确的标定两个相机之间的变换关系。

3、除了双目slam之外，使用单目+imu结合也是一种比较流行的方法，该方法同样需要精确的标定imu与相机的变换关系，除此之外，还需要对imu的内参数进行标定。多传感器融合降低了slam问题的难度，但同时也增加了基础的工作量以及成本。

技术实现思路

1、鉴于上述的分析，本专利技术实施例旨在提供一种基于单目与深度学习结合的室内场景视觉定位方法，用以解决现有单目slam存在的尺度不确定性和尺度漂移的问题。

2、一方面，本专利技术实施例提供了一种基于单目的室内办公场景视觉定位方法，包括如下步骤：>

3、加载目标信息，对实时采集的每帧图像进行目标检测，得到目标检测结果；目标包括：1个二维码、至少1个消防栓和门；

4、跟踪每帧图像，得到每帧图像的特征点信息和目标检测信息；

5、当目标检测信息中有二维码目标时，根据预置窗口大小，开始将图像放入窗口内，通过对极几何以及重投影误差的优化方法，估计出窗口内每帧图像对应的相机位姿，将各相机位姿转换到以二维码中心为原点的原点坐标系下；

6、获取一帧新图像，开始相机位姿优化处理，包括：使用匀速模型预测新图像对应的相机位姿，对窗口内每帧图像和新图像，根据相机先验位姿和相机位姿、二维码角点坐标、特征点逆深度、相邻帧相对位姿，以及门的高度，分别建立误差函数，联立各误差函数计算误差平方和最小的解，得到窗口内每帧图像和新图像对应的优化后的相机位姿和特征点逆深度，滑动窗口，继续获取一帧新图像，重复执行相机位姿优化处理。

7、基于上述方法的进一步改进，跟踪每帧图像，得到每帧图像的特征点信息和目标检测信息，包括：

8、获取每帧图像的特征点，使用光流法对每帧图像的特征点进行跟踪，得到特征点信息，包括：特征点像素坐标和特征点编号，其中，跟踪成功的特征点具有相同的特征点编号；

9、根据跟踪成功的特征点，获取前一帧与当前帧中目标框中特征点的平均移动向量，并根据平均移动向量，得到当前帧中目标框在前一帧的目标框，作为第一目标框；

10、当第一目标框与前一帧中目标框的交并比大于阈值，则当前帧中目标框与前一帧中目标框关联成功，设置相同的目标框编号，加入目标检测结果中，得到目标检测信息。

11、基于上述方法的进一步改进，当目标检测信息中有二维码目标时，还包括：以二维码中心为原点，根据加载的目标信息中二维码的尺寸，得到二维码角点的三维绝对坐标，并使用p3p算法，计算出二维码所在图像对应的相机先验位姿；

12、根据预置窗口大小，开始将图像放入窗口内，还包括：通过三角化方法得到在相机坐标系下特征点在首次出现的窗口内图像中的三维坐标，并根据特征点的三维坐标得到特征点的归一化平面坐标和逆深度。

13、基于上述方法的进一步改进，将各相机位姿转换到以二维码中心为原点的原点坐标系下，包括：

14、根据窗口内第一个和最后一个检测到二维码的图像对应的相机先验位姿，得到第一相对位姿；

15、根据窗口内第一个和最后一个检测到二维码的图像对应的估计的相机位姿，得到第二相对位姿；

16、第一相对位姿中的平移与第二相对位姿中的平移的比值，作为尺度因子，将各相机位姿中的平移乘以尺度因子，得到带有绝对尺度的相机位姿；

17、根据窗口内第一个检测到二维码的图像对应的相机先验位姿和带有绝对尺度的位姿，得到坐标变换矩阵，再分别与带有绝对尺度的相机位姿相乘，得到原点坐标系下各相机位姿。

18、基于上述方法的进一步改进，根据相机先验位姿和相机位姿建立误差函数，是根据检测到二维码的图像对应的相机先验位姿，与对应的相机位姿，建立先验误差函数。

19、基于上述方法的进一步改进，根据二维码角点坐标建立误差函数，是对检测到二维码的图像，分别根据二维码各角点的三维绝对坐标投影的归一化平面坐标，与观测到的二维码各角点的归一化平面坐标，建立各角点的重投影误差函数。

20、基于上述方法的进一步改进，根据特征点逆深度建立误差函数，是对具有相同的特征点编号的图像集合，根据相机坐标系下特征点的归一化平面坐标和逆深度，从首次观测到特征点的图像向集合中其它任一帧图像投影得到投影点的归一化平面坐标，与另一帧图像中观测到的特征点的归一化平面坐标，建立逆投影误差函数。

21、基于上述方法的进一步改进，根据相邻帧相对位姿建立误差函数，是对具有相同的目标框编号且目标是二维码或消防栓的相邻帧，基于相同目标计算出相邻帧相对观测位姿，与根据相邻帧相机位姿得到的相对位姿，建立观测误差函数。

22、基于上述方法的进一步改进，根据门的高度建立误差函数，是对检测到门的图像，将门两侧中任一侧的角点在原点坐标系下的坐标转换为相机坐标系下的三维坐标，计算出门的高度，与加载的目标信息中该目标对应的门实际高度，建立门高度误差函数。

23、另一方面，本专利技术实施例提供了一种基于单目的室内办公场景视觉定位系统，包括：

24、目标检测模块，用于加载目标信息，对实时采集的每帧图像进行目标检测，得到目标检测结果；目标包括：1个二维码、至少1个消防栓和门；

25、目标跟踪模块，用于跟踪目标检测结果，得到每帧图像的特征点信息和目标检测信息；

26、视觉初始化模块，用于当目标检测信息中有二维码目标时，根据预置窗口大小，开始将图像帧放入窗口内，通过对极几何以及重投影误差的优化方法，估计出窗口内每帧图像对应的相机位姿，将各相机位姿转换到以二维码中心为原点的原点坐标系下；

27、位姿优化模块，用于获取一帧新图像，开始相机位姿优化处理，包括：使用匀速模型预测新图像对应的相机位姿，对窗口内每帧图像和新图像，根据相机先验位姿和相机位姿、二维码角点坐标、特征点逆深度、相邻帧相对位姿，以及门的高度，分别建立误差函数，联立各误差函数计算误差平方和最小的解，得到窗口内每帧图像和新图像对应的优化后的相机位姿和特征点逆深度，滑动窗口，继续获取一帧新图像，重复执行相机位姿优化处理。

2本文档来自技高网...

【技术保护点】

1.一种基于单目的室内办公场景视觉定位方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述跟踪每帧图像，得到每帧图像的特征点信息和目标检测信息，包括：

3.根据权利要求2所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述当目标检测信息中有二维码目标时，还包括：以二维码中心为原点，根据加载的目标信息中二维码的尺寸，得到二维码角点的三维绝对坐标，并使用P3P算法，计算出二维码所在图像对应的相机先验位姿；

4.根据权利要求3所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述将各相机位姿转换到以二维码中心为原点的原点坐标系下，包括：

5.根据权利要求4所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述根据相机先验位姿和相机位姿建立误差函数，是根据检测到二维码的图像对应的相机先验位姿，与对应的相机位姿，建立先验误差函数。

6.根据权利要求4所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述根据二维码角点坐标建立误差函数，是对检测到二维码的图像

7.根据权利要求4所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述根据特征点逆深度建立误差函数，是对具有相同的特征点编号的图像集合，根据相机坐标系下特征点的归一化平面坐标和逆深度，从首次观测到特征点的图像向集合中其它任一帧图像投影得到投影点的归一化平面坐标，与另一帧图像中观测到的特征点的归一化平面坐标，建立逆投影误差函数。

8.根据权利要求4所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述根据相邻帧相对位姿建立误差函数，是对具有相同的目标框编号且目标是二维码或消防栓的相邻帧，基于相同目标计算出相邻帧相对观测位姿，与根据相邻帧相机位姿得到的相对位姿，建立观测误差函数。

9.根据权利要求4所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述根据门的高度建立误差函数，是对检测到门的图像，将门两侧中任一侧的角点在原点坐标系下的坐标转换为相机坐标系下的三维坐标，计算出门的高度，与加载的目标信息中该目标对应的门实际高度，建立门高度误差函数。

10.一种基于单目的室内办公场景视觉定位系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于单目的室内办公场景视觉定位方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述跟踪每帧图像，得到每帧图像的特征点信息和目标检测信息，包括：

3.根据权利要求2所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述当目标检测信息中有二维码目标时，还包括：以二维码中心为原点，根据加载的目标信息中二维码的尺寸，得到二维码角点的三维绝对坐标，并使用p3p算法，计算出二维码所在图像对应的相机先验位姿；

4.根据权利要求3所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述将各相机位姿转换到以二维码中心为原点的原点坐标系下，包括：

6.根据权利要求4所述的基于单目的室内办公场景视觉定位方法，其特征在于，所述根据二维码角点坐标建立误差函数，是对检测到二维码的图像，分别根据二维码各角点的三维绝对坐标投影的归一化平面坐标，...

【专利技术属性】
技术研发人员：廉斌，钟恒，祈贤雨，王琳，周超，
申请(专利权)人：北京机械设备研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人