一种基于开放场景地图的视觉语言导航方法、装置及介质制造方法及图纸

技术编号：38346920 阅读：13 留言：0更新日期：2023-08-02 09:27

本发明专利技术公开了一种基于开放场景地图的视觉语言导航方法、装置及介质，属于智能导航技术领域。其中方法包括：获取智能体在环境中的视觉图像数据；根据视觉图像数据构建开放场景地图表征，所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图；根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作。本发明专利技术将物体属性层级信息结合开放场景物体和指令标志物的语义信息，将以上信息结合构建开放场景地图，提升该地图对开放场景中多样化物体的属性、位置的表征能力，使地图表征不局限于固定的少量物体类别，且增加的物体属性信息可帮助智能体消除物体类别歧义，准确定位感兴趣物体。趣物体。趣物体。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于开放场景地图的视觉语言导航方法、装置及介质

[0001]本专利技术涉及智能导航
，尤其涉及一种基于开放场景地图的视觉语言导航方法、装置及介质。

技术介绍

[0002]具身智能的出现为提升当前人工智能认知能力、走向通用智能提供了重要技术路线。通过与环境交互的渠道，智能体可从真实物理或虚拟数字空间中获取真实反馈，从而进一步学习和进步，其中，视觉语言导航旨在使智能体能够跟随自然语言指令进行自主导航，近年来逐步受到广泛关注，已成为具身智能的研究热点之一，在人机交互、家居服务机器人等方面有着巨大的潜在应用价值。
[0003]目前，现有方法提出基于地图的模块化方式实现视觉语言导航，通过构建语义地图以表征环境信息。然而，现有方法所构建的语义地图仍然存在两个主要问题：1）现有地图构建方式忽略了物体自身所包含的丰富属性信息（如颜色、纹理等），从而导致物体歧义。比如，当房间内有两张不同颜色的沙发，如果地图只能表示沙发这个语义类别，则无法区分两张沙发；2）现有地图构建方式仅能表示有限的物体类别（通常为40类）。实际指令和场景中往往包含复杂多样的物体类别信息，现有语义地图难以对其进行有效表示，进而影响智能体的导航性能。因此，如何在地图中融入物体的细节属性信息并准确表示开放场景中的多样物体类别信息是目前视觉语言导航任务的研究热点与难点之一。

技术实现思路

[0004]为至少一定程度上解决现有技术中存在的技术问题之一，本专利技术的目的在于提供一种基于开放场景地图的视觉语言导航方法、装置及介质。
[0...

【技术保护点】

【技术特征摘要】
1.一种基于开放场景地图的视觉语言导航方法，其特征在于，包括以下步骤：获取智能体在环境中的视觉图像数据；所述视觉图像数据包括RGB图像和深度图像；根据视觉图像数据构建开放场景地图表征，所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图；根据构建的开放场景地图表征预测子目标点的位置及导航进度，并执行对应动作。2.根据权利要求1所述的一种基于开放场景地图的视觉语言导航方法，其特征在于，所述根据视觉图像数据构建开放场景地图表征，包括：根据RGB图像和深度图像获取物体属性层级地图；根据RGB图像、深度图像和预设的开放场景物体类别获取开放场景物体语义地图；根据RGB图像、深度图像和预设的导航指令获取标志物语义层级地图；将物体属性层级地图、开放场景物体语义地图和标志物语义层级地图分别经过卷积层，在子空间连接后，再经过卷积层得到开放场景地图表征。3.根据权利要求1所述的一种基于开放场景地图的视觉语言导航方法，其特征在于，所述物体属性层级地图具体通过以下方式获得：将RGB图像输入经过训练的深度神经网络，获取深度神经网络的中间层特征图；将获得的中间层特征图，根据深度图像的深度信息进行映射，得到物体属性层级地图。4.根据权利要求1所述的一种基于开放场景地图的视觉语言导航方法，其特征在于，所述开放场景物体语义地图具体通过以下方式获得：将预设的开放场景物体类别和RGB图像输入到面向开放词汇的目标检测器，检测得到开放场景物体位置；将检测得到的开放场景物体位置，根据深度图像的深度信息进行映射，得到开放场景物体语义地图。5.根据权利要求1所述的一种基于开放场景地图的视觉语言导航方法，其特征在于，所述标志物语义层级地图具体通过以下方式获得：将导航指令输入标志物解析器，得到指令中的标志物类别；将得...

【专利技术属性】
技术研发人员：谭明奎，陈沛豪，吉冬昱，林坤阳，杜卿，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人