【技术实现步骤摘要】
本申请涉及视觉语言导航的,尤其涉及一种基于分级图的长短记忆目标导航方法、装置、设备及存储介质。
技术介绍
1、近年来,计算机视觉和自然语言处理技术的蓬勃发展,弥补了机器人在无先验地图情况下语义理解与推理能力不足的缺陷,使得在开放词汇场景下的导航成为可能,并由此催生了一项新兴任务,即开放场景下的视觉语言导航(vln,visual languagenavigation)。这项跨模态任务需要整合视觉感知和自然语言理解,使代理能够在陌生场景下,理解周围环境并根据用户的指令导航到目的地。
2、目前,基于强化学习以及模仿学习的方法仅限于在单个或一组特定的数据集上解决vln任务,对跨数据集场景下的导航,其准确性难以满足实际需求。在此基础上,基于大语言模型(llm,large language model)与vlm的开放场景下的导航策略,虽然能解决场景迁移的问题,但过程中不断调用大语言模型来进行环境的探索,导致探索具有一定的盲目性,因此也产生较高的能耗与较长的时延。
3、基于此,如何减少探索的盲目性,从而降低探索能耗与缩短探索延
...【技术保护点】
1.基于分级图的长短记忆目标导航方法,应用于代理,其特征在于,所述方法包括:
2.根据权利要求1所述的基于分级图的长短记忆目标导航方法,其特征在于,所述获取当前场景的第一全景图像,以根据所述第一逻辑链和所述第一全景图像构建分级图谱的步骤包括:
3.根据权利要求2所述的基于分级图的长短记忆目标导航方法,其特征在于,所述结构化文本包括房间类型信息、位置信息、角度信息和物体描述信息;所述对所有所述结构化文本进行整合,得到分级图更新语句的步骤包括:
4.根据权利要求1所述的基于分级图的长短记忆目标导航方法,其特征在于,所述对每一所述逻辑链进
...【技术特征摘要】
1.基于分级图的长短记忆目标导航方法,应用于代理,其特征在于,所述方法包括:
2.根据权利要求1所述的基于分级图的长短记忆目标导航方法,其特征在于,所述获取当前场景的第一全景图像,以根据所述第一逻辑链和所述第一全景图像构建分级图谱的步骤包括:
3.根据权利要求2所述的基于分级图的长短记忆目标导航方法,其特征在于,所述结构化文本包括房间类型信息、位置信息、角度信息和物体描述信息;所述对所有所述结构化文本进行整合,得到分级图更新语句的步骤包括:
4.根据权利要求1所述的基于分级图的长短记忆目标导航方法,其特征在于,所述对每一所述逻辑链进行评分的步骤包括:
5.根据权利要求1所述的基于分级图的长短记忆目标...
【专利技术属性】
技术研发人员:郑孙健,俞波,刘少山,
申请(专利权)人:深圳市人工智能与机器人研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。