一种基于视觉与文本常识增强的具身智能体室内导航方法技术

技术编号：45799007 阅读：21 留言：0更新日期：2025-07-11 20:11

本发明专利技术公开了一种基于视觉与文本常识增强的具身智能体室内导航方法，包括借助ChatGPT和BLIP‑2来提供环境常识性信息；借助Stable Diffusion生成常识性的视觉图像；通过视觉编码器和文本编码器分别提取视觉特征和文本特征；通过拓扑映射构建拓扑图特征；通过文本常识布局学习模块和视觉常识布局学习模块，分别从语言和视觉两个维度帮助VLN代理学习环境常识；将学习常识后的文本特征与学习常识后的视觉‑拓扑特征融合得到多模态融合特征，并作为分类回归头的输入进行动作预测；最后执行在线导航，加载训练模型测试导航效果。本发明专利技术通过文本和视觉常识中包含的房间类型和房间类型中常见物体等语义和视觉信息，增强视觉特征的表达能力，提高了导航精度和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视觉语言导航，具体地讲，是涉及一种基于视觉与文本常识增强的具身智能体室内导航方法。

技术介绍

1、随着具身智能技术的快速发展，视觉语言导航（vision-and-languagenavigation，vln）作为一种重要的人工智能导航任务，结合了计算机视觉、自然语言处理和机器人学等多个领域的技术，已逐渐成为具身智能领域的研究热点。vln任务要求智能机器人能够理解和执行自然语言指令，并结合来自环境的视觉信息进行有效的导航。这一任务不仅对智能机器人的感知与决策能力提出了高要求，而且涉及到复杂的多模态信息融合，是智能机器人在现实世界中执行任务的关键能力之一。近年来，vln任务得到了广泛关注，并取得了一定的研究进展，尤其是在室内导航、自动驾驶和增强现实等领域的应用前景。

2、早期的vln方法主要基于lstm架构构建模型，但这些方法在利用长期历史信息方面存在明显不足，难以有效捕捉和理解复杂的时空结构。为了提升模型性能，部分vln方法引入了数据增强策略，旨在增强代理对环境信息的理解能力，并促进多模态的对齐与融合。随着transformer的发本文档来自技高网...

【技术保护点】

1.一种基于视觉与文本常识增强的具身智能体室内导航方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视觉与文本常识增强的具身智能体室内导航方法，其特征在于，所述步骤S10中，将Matterport3D模拟器中的全景图输入BLIP-2模型，通过设定的用于描述房间类型特点的提示词来限定生产的房间类型文本描述的内容范围；然后将获取的房间类型文本描述用于向ChatGPT模型提问，通过预设的提示词，针对每种房间类型中最常见的指定数量个物体，获取相应的地标知识，形成每个房间类型的地标常识。

3.根据权利要求2所述的基于视觉与文本常识增强的具身智能体室内导航方法，其...

【技术特征摘要】

1.一种基于视觉与文本常识增强的具身智能体室内导航方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视觉与文本常识增强的具身智能体室内导航方法，其特征在于，所述步骤s10中，将matterport3d模拟器中的全景图输入blip-2模型，通过设定的用于描述房间类型特点的提示词来限定生产的房间类型文本描述的内容范围；然后将获取的房间类型文本描述用于向chatgpt模型提问，通过预设的提示词，针对每种房间类型中最常见的指定数量个物体，获取相应的地标知识，形成每个房间类型的地标常识。

3.根据权利要求2所述的基于视觉与文本常识增强的具身智能体室内导航方法，其特征在于，所述步骤s20中，为每个相同房间类型的不同全景图生成不同的常识性视觉图像，以覆盖房间类型的不同布局和地标配置。

4.根据权利要求3所述的基于视觉与文本常识增强的具身智能体室内导航方法，其特征在于，所述步骤s40中，将步骤s30获取的全景图输入到视觉编码器中，提取视图的视觉特征；将步骤s30获取的指令数据集输入到文本编码器中，提取指令的文本特征。

5.根据权利要求4所述的基于视觉...

【专利技术属性】
技术研发人员：赵柏聿，高放，唐镜峰，麻胜恒，
申请(专利权)人：中科深圳无线半导体有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人