基于文字标识的语义视觉定位方法技术

技术编号：38615273 阅读：11 留言：0更新日期：2023-08-26 23:42

本发明专利技术涉及视觉定位技术领域，且公开了一种基于文字标识的语义视觉定位方法，包括以下步骤：准备步骤，进行三维地图构建、图像检索步骤，基于上一步构建的三维文字地图，输入查询帧进行图像检索、位姿估计，得到当前帧的匹配帧后，需要计算两帧之间的相对位姿、实验对比，实验使用TextSLAM所提出的数据集，选择图像检索、位置识别、视觉定位等相关领域的多个经典、最好方法进行比较。该基于文字标识的语义视觉定位方法，使用场景中的文字标识信息作为特征进行视觉定位，从而实现一种真正的词袋模型，而非前述工作使用的视觉“词袋”模型；使用基于文字标识的语义信息进行视觉定位，可以获得定位准确率和效率的大幅度提升。位准确率和效率的大幅度提升。位准确率和效率的大幅度提升。

全部详细技术资料下载

【技术实现步骤摘要】
基于文字标识的语义视觉定位方法

[0001]本专利技术涉及视觉定位
，具体为一种基于文字标识的语义视觉定位方法。

技术介绍

[0002]视觉定位方法输入查询帧，从数据库中找到与查询帧观测同一个位置的关键帧，并计算出查询帧相对于数据库帧的相对位姿，从而得到查询帧当前相机位姿。传统的视觉定位方法通过比较图像局部外观特征进行帧与帧之间的相似度计算，例如使用FAST+BRIEF、SURF、SIFT等常见特征及其描述子，结合视觉词袋模型(visual bag of word)技术，进行图像间的相似度计算，从而找到与输入查询帧最相似的数据库关键帧。
[0003]图像局部外观特征容易受到变化的环境影响，比如观测视角变化、场景光照变化，都会导致图像外观发生巨大的变化，从而对依赖图像局部外观的视觉词袋模型方法产生影响，难以完成准确鲁棒的视觉定位。针对这种情况，研究者注意到环境中存在的语义目标，它们所携带的语义信息不随环境变化而变化，因此有研究工作通过提取环境中的语义信息编码为特征，依靠这类语义特征进行视觉定位，获得了不错的效果。
[0004]环境中存在一类典型的语义目标—文字标识，比如商店招牌、道路指示牌、办公室铭牌等等，它们几何结构统一、直接传递语义信息、分布广泛、出现频率高，是一种良好的视觉定位标志物。有研究者[1]使用从二维图像观测中提取出来的文字标识，将其语义信息与数据库所有帧上所有文字观测进行逐一比较，从而得到图像检索结果，之后使用EKF算法将数据库帧的位姿与当前运行的视觉里程计计算出的位姿结果进行融合...

【技术保护点】

【技术特征摘要】
1.一种基于文字标识的语义视觉定位方法，其特征在于：所述视觉定位方法包括以下步骤：S1、准备步骤，进行三维地图构建，图像检索和位姿估计均基于该地图进行；S2、图像检索步骤，基于上一步构建的三维文字地图，输入查询帧进行图像检索；S3、位姿估计，得到当前帧的匹配帧后，需要计算两帧之间的相对位姿，此时需要两帧之间的特征点匹配结果；S4、实验对比，实验使用TextSLAM所提出的数据集，选择图像检索、位置识别、视觉定位等相关领域的多个经典、最好方法进行比较，基于深度学习的方法使用方法所提供的训练好的模型进行测试。2.根据权利要求1所述的基于文字标识的语义视觉定位方法，其特征在于：所述S1进一步的包括：将一组数据库帧输入可处理文字信息的SLAM算法或SfM算法，构建包含文字语义信息和几何位置信息的全局地图；地图中的文字目标是经过多帧观测校验的结果，与单张图像上的直接文字检测结果相比，删除了重复观测和单帧检测错误结果。3.根据权利要求1所述的基于文字标识的语义视觉定位方法，其特征在于：所述S2包括：S21、使用文字提取技术对二维图像进行文字目标检测和识别，得到图像中所有观测文字和其语义信息；S22、提取计算图像中的FAST特征点和其BRIEF描述子，包括文字区域和非文字区域的所有特征点；S23、遍历查询帧上的所有文字观测，对于每一个文字观测；S24、遍历三维文字地图中的所有文字目标；S25、每个文字观测与每个地图文字目标进行相似性比较：具体来说，使用s
i
和s
j
代表两个文字语义信息的字符串，它们之间的相似度定义为如下形式：4.根据权利要求3所述的基于文字标识的语义视觉定位方法，其特征在于：所述S2还包括：S26、使用阈值对文字语义匹配结果进行筛选，高于阈值的结果被认为是匹配上的文字，低于阈值的匹配则被删除，该步骤中阈值的选择我们提出自适应阈值进行计算，当前帧存在观测遮挡等情况，也可以在地图中找到正确匹配的文字目标；S27、经过阈值筛选的匹...

【专利技术属性】
技术研发人员：李博颖，邹丹平，裴凌，郁文贤，
申请(专利权)人：上海西虹桥导航技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人