基于分级图的长短记忆目标导航方法、装置、设备及存储介质制造方法及图纸

技术编号：45058365 阅读：34 留言：0更新日期：2025-04-22 17:41

本申请涉及视觉语言导航的技术领域，尤其涉及一种基于分级图的长短记忆目标导航方法、装置、设备及存储介质。包括：根据预设导航目标和预设分级策略生成逻辑链，对每一逻辑链进行评分，根据评分高低顺序将逻辑链插入至预设逻辑链队列；将预设逻辑链队列中排序第一的逻辑链作为第一逻辑链，获取当前的全景图像，根据第一逻辑链和全景图像构建分级图谱；根据第一逻辑链和分级图谱，确定导航子目标；获取导航结果以调整第一逻辑链，根据调整后的第一逻辑链更新分级图谱；返回执行根据第一逻辑链和分级图谱，确定导航子目标的步骤，直至完成对预设导航目标的导航任务。本申请可以减少探索的盲目性，从而达到降低探索能耗与缩短探索延时的有益效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及视觉语言导航的，尤其涉及一种基于分级图的长短记忆目标导航方法、装置、设备及存储介质。

技术介绍

1、近年来，计算机视觉和自然语言处理技术的蓬勃发展，弥补了机器人在无先验地图情况下语义理解与推理能力不足的缺陷，使得在开放词汇场景下的导航成为可能，并由此催生了一项新兴任务，即开放场景下的视觉语言导航（vln，visual languagenavigation）。这项跨模态任务需要整合视觉感知和自然语言理解，使代理能够在陌生场景下，理解周围环境并根据用户的指令导航到目的地。

2、目前，基于强化学习以及模仿学习的方法仅限于在单个或一组特定的数据集上解决vln任务，对跨数据集场景下的导航，其准确性难以满足实际需求。在此基础上，基于大语言模型（llm，large language model）与vlm的开放场景下的导航策略，虽然能解决场景迁移的问题，但过程中不断调用大语言模型来进行环境的探索，导致探索具有一定的盲目性，因此也产生较高的能耗与较长的时延。

3、基于此，如何减少探索的盲目性，从而降低探索能耗与缩短探索延...

【技术保护点】

1.基于分级图的长短记忆目标导航方法，应用于代理，其特征在于，所述方法包括：

2.根据权利要求1所述的基于分级图的长短记忆目标导航方法，其特征在于，所述获取当前场景的第一全景图像，以根据所述第一逻辑链和所述第一全景图像构建分级图谱的步骤包括：

3.根据权利要求2所述的基于分级图的长短记忆目标导航方法，其特征在于，所述结构化文本包括房间类型信息、位置信息、角度信息和物体描述信息；所述对所有所述结构化文本进行整合，得到分级图更新语句的步骤包括：

4.根据权利要求1所述的基于分级图的长短记忆目标导航方法，其特征在于，所述对每一所述逻辑链进行评分的步骤包括：<...

【技术特征摘要】

1.基于分级图的长短记忆目标导航方法，应用于代理，其特征在于，所述方法包括：

4.根据权利要求1所述的基于分级图的长短记忆目标导航方法，其特征在于，所述对每一所述逻辑链进行评分的步骤包括：

5.根据权利要求1所述的基于分级图的长短记忆目标...

【专利技术属性】
技术研发人员：郑孙健，俞波，刘少山，
申请(专利权)人：深圳市人工智能与机器人研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人