基于文本-点云匹配的地点识别模型构建方法及系统技术方案

技术编号：44888942 阅读：14 留言：0更新日期：2025-04-08 00:26

本发明专利技术提出了一种基于文本‑点云匹配的地点识别模型构建方法及系统，涉及机器人和计算机视觉技术领域，针对的问题是：传统方法依赖于单一模态进行地点匹配，易受环境因素的影响，精度和鲁棒性较差。通过先进开源GPT‑4工具生成文本描述，结合KI TT I 360点云子图，实现文本到点云的语义对齐和跨模态特征融合。具体而言，通过文本编码模块和点云编码模块分别提取文本特征和点云特征，利用对比学习将文本描述和点云子图映射到统一的语义嵌入空间，采用级联跨模态注意力选择性状态空间模块，进一步优化文本与点云的特征匹配，提升了模型在复杂环境下的泛化性能和跨模态匹配的准确性，解决了单一模态地点识别技术复杂场景下鲁棒性和准确性差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器人和计算机视觉，尤其涉及基于文本-点云匹配的地点识别模型构建方法及系统，具体涉及使用融入注意力机制的状态空间模型实现文本到点云的跨模态地点识别模型构建方法及系统。

技术介绍

1、随着智能设备和自动驾驶技术的发展，地点识别作为核心技术之一，已经广泛应用于机器人导航、自动驾驶、虚拟现实等领域。传统基于视觉或激光雷达的地点识别方法通常只依赖于单一模态数据，依赖于2d图像或3d点云进行匹配，通过相机或雷达提取特征，但由于环境光照变化、视角变化等外界因素的影响，其精度和鲁棒性受限。然而，随着多模态数据的普及，将文本描述与点云地图相结合的跨模态地点识别技术逐渐成为研究热点。文本信息和点云信息具有不同的表达方式，如何有效融合两者的特征信息，以提升地点识别的准确性和鲁棒性，是当前技术面临的重要挑战。

2、通过上述分析，可知，现有地点识别技术存在一定的不足：

3、(1)传统定位方法仅依赖单一模态的图像或点云特征，在环境条件变化(如光照、季节)和视角变化(如遮挡、大角度旋转)的场景中，易导致定位失败，难以保证鲁棒性和准确性；

4、(2)现有跨模态方法未能充分利用文本描述与点云地图的互补信息，尤其是在点云特征提取中，通常采用简单的注意力机制或直接对点云进行特征聚合，导致点云与文本特征的语义空间不对齐，限制了跨模态融合效果。

技术实现思路

1、为克服上述现有技术的不足，本专利技术提供了一种基于文本-点云匹配的地点识别模型构建方法及系统，其通过在文本编码

2、为实现上述目的，本专利技术的一个或多个实施例提供了如下技术方案：

3、第一方面，公开了一种基于文本-点云匹配的地点识别模型构建方法，包括：

4、获取文本数据，所述文本描述由gpt-4大模型工具根据kitti360点云子地图对应生成；

5、将文本描述和点云子地图输入至特征编码模块中，通过文本编码模块和点云编码模块的注意力特征提取机制提取每一模态的注意力特征和空间特征；

6、作为进一步的技术，通过文本编码模块提取自然语言描述中的空间关系关键特征，通过点云编码模块捕获点云子地图的长距离几何特征，得到点云注意力特征；

7、将文本注意力特征与点云注意力特征进行跨模态融合，得到统一的语义嵌入特征；

8、作为进一步的技术，将文本特征与点云特征输入对比学习网络，通过对比学习训练生成跨模态语义空间，实现跨模态特征语义对齐；

9、将对齐的文本特征和点云特征输入跨模态语义空间，利用级联注意力选择性状态空间模型(cascade attention selective state-space model,cassm)，融合文本与点云的跨模态特征，进一步增强目标地点的空间和语义匹配关系；

10、作为进一步的技术，对候选子地图进行精确位置回归，将粗定位阶段的候选子地图特征和文本特征输入至cassm，通过cassm融合文本与点云的跨模态特征，进一步增强目标地点的空间和语义匹配关系；

11、根据融合后的匹配嵌入，计算目标的具体地点偏移量δl，以精确定位描述的目标地点，计算公式如下：

12、δl＝f(mtp)

13、其中，δl表示目标的具体地点偏移量，mtp表示生成最终的匹配嵌入，f(·)是用于地点回归的函数。

14、第二方面，公开了一种基于文本-点云匹配的地点识别模型构建系统，包括：

15、文本生成模块，用于使用gpt-4大模型工具生成kitti360点云子地图数据集对应的文本描述数据；

16、文本编码模块，用于将文本描述编码为嵌入特征，便于文本-点云数据跨模态特征匹配；

17、点云编码模块，用于对三维点云数据进行特征提取和编码，以便与文本描述的嵌入进行匹配；

18、文本-点云跨模态匹配模块，用于将文本和点云特征进行跨模态对齐，实现跨模态的场景匹配与定位；

19、级联注意力选择性状态空间模型模块，用于进一步细化对文本与点云的匹配关系，最终得到高精度的目标地点坐标。

20、本专利技术第三个方面是提供一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

21、本专利技术第四个方面是提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

22、本专利技术第五个方面是提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时执行上述所述的方法。

23、以上一个或多个技术方案存在以下有益效果：

24、本实例中，通过文本编码模块和点云编码模块，增强了文本语义特征和点云空间特征的多尺度表达能力，通过引入对比学习优化了文本与点云特征的语义对齐，通过cassm实现了跨模态特征的深度融合，提高了目标定位的精度和鲁棒性。相较于单模态方法，本实例克服了仅依赖视觉或点云的传统单一模态识别方法在复杂场景下易失效的问题，同时也解决了单纯基于文本描述的方法在定位时模糊性和缺乏空间关联的不足，显著提升了模型的泛化性能和跨模态匹配的准确性，实现了更加精准且高效的目标定位。

25、本专利技术附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本专利技术的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种基于文本-点云匹配的地点识别模型构建方法，其特征在于，具体步骤如下：

2.如权利要求1所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤S1中，每个文本描述特征的提取过程为：

3.如权利要求1所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤S3中，每个点云子地图特征的提取过程为：

4.如权利要求2、3所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤S4中，将提取的文本特征和点云特征映射至统一语义嵌入空间，具体步骤如下为：

5.如权利要求4所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤S5对候选点云子图进行精确地点回归过程为：

6.如权利要求5所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤S6预测目标地点，具体为：根据融合后的匹配嵌入MTP，计算目标的具体地点偏移量ΔL，以精确定位描述的目标地点。

7.一种基于文本-点云匹配的地点识别模型构建系统，其特征在于，包括：

8.一种计算机装置,包括

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时执行上述权利要求1-8任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。

...

【技术特征摘要】

1.一种基于文本-点云匹配的地点识别模型构建方法，其特征在于，具体步骤如下：

2.如权利要求1所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤s1中，每个文本描述特征的提取过程为：

3.如权利要求1所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤s3中，每个点云子地图特征的提取过程为：

4.如权利要求2、3所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤s4中，将提取的文本特征和点云特征映射至统一语义嵌入空间，具体步骤如下为：

5.如权利要求4所述的基于文本-点云匹配的地点识别模型构建方法，其特征在于，所述步骤s5对候选点云子图进行精确地点回归过程为：

6.如权利要求5所述的基...

【专利技术属性】
技术研发人员：李振雨，国宇辰，乔晋崴，尚天翼，孔凡臣，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人