【技术实现步骤摘要】
本专利技术涉及具身智能、多模态、导航领域,尤其涉及一种基于目标层级树的无人机视觉语言导航方法。
技术介绍
1、视觉语言导航是一个跨学科的研究领域,它融合了自然语言处理、计算机视觉和机器学习等多个学科的前沿技术。视觉语言导航的核心挑战在于,智能体必须能够理解人类通过自然语言传达的复杂指令,并将这些指令与从实际环境中捕获的视觉信息结合起来,从而做出准确的导航决策。随着人工智能技术的不断进步,视觉语言导航已经成为一个研究热点,它不仅具有重要的科学探索意义,还具有广泛的应用前景。
2、目前的视觉语言导航方法中导航场景感知是实现智能体自主导航的关键环节,它要求智能体通过视觉输入理解环境,并结合自然语言指令进行决策。这不仅涉及到智能体对视觉信息的准确解读,还包括将这些信息与导航指令相结合,以实现对场景的全面理解。例如,智能体识别当前场景中的各类目标,并将它们与指令中提及的描述相匹配。通过采用先进的视觉语言跨模态对齐方法,以各种预训练代理任务为手段对齐导航指令中的实体与视觉观测中的目标,从而实现精准的导航场景感知。这些方法强化了视觉与文本
...【技术保护点】
1.一种基于目标层级树的无人机视觉语言导航方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于目标层级树的无人机视觉语言导航方法,其特征在于,所述S1中,所述目标解析模块实现:
3.根据权利要求1所述的一种基于目标层级树的无人机视觉语言导航方法,其特征在于,所述S2中,所述目标定位模块实现:
【技术特征摘要】
1.一种基于目标层级树的无人机视觉语言导航方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于目标层级树的无人机视觉语言导航方法,其特征在于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。