一种基于目标层级树的无人机视觉语言导航方法技术

技术编号:43869969 阅读:21 留言:0更新日期:2024-12-31 18:55
本发明专利技术提供一种基于目标层级树的无人机视觉语言导航方法,包括如下步骤:S1、通过目标解析模块获取导航指令中目标的一阶逻辑程序,并利用文本编码器获取导航指令的文本特征;S2、通过目标定位模块构建前视图像中各类目标对应的层级树,并根据目标的一阶逻辑程序定位关键目标并获取对应视觉特征,接着利用视觉编码器提取前视图像的视觉特征;S3、利用视觉文本特征通过多模态编码器获取导航各个时刻对应的导航动作输出。本发明专利技术提升了导航决策的质量。

【技术实现步骤摘要】

本专利技术涉及具身智能、多模态、导航领域,尤其涉及一种基于目标层级树的无人机视觉语言导航方法


技术介绍

1、视觉语言导航是一个跨学科的研究领域,它融合了自然语言处理、计算机视觉和机器学习等多个学科的前沿技术。视觉语言导航的核心挑战在于,智能体必须能够理解人类通过自然语言传达的复杂指令,并将这些指令与从实际环境中捕获的视觉信息结合起来,从而做出准确的导航决策。随着人工智能技术的不断进步,视觉语言导航已经成为一个研究热点,它不仅具有重要的科学探索意义,还具有广泛的应用前景。

2、目前的视觉语言导航方法中导航场景感知是实现智能体自主导航的关键环节,它要求智能体通过视觉输入理解环境,并结合自然语言指令进行决策。这不仅涉及到智能体对视觉信息的准确解读,还包括将这些信息与导航指令相结合,以实现对场景的全面理解。例如,智能体识别当前场景中的各类目标,并将它们与指令中提及的描述相匹配。通过采用先进的视觉语言跨模态对齐方法,以各种预训练代理任务为手段对齐导航指令中的实体与视觉观测中的目标,从而实现精准的导航场景感知。这些方法强化了视觉与文本信息的融合,辅助智能本文档来自技高网...

【技术保护点】

1.一种基于目标层级树的无人机视觉语言导航方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于目标层级树的无人机视觉语言导航方法,其特征在于,所述S1中,所述目标解析模块实现:

3.根据权利要求1所述的一种基于目标层级树的无人机视觉语言导航方法,其特征在于,所述S2中,所述目标定位模块实现:

【技术特征摘要】

1.一种基于目标层级树的无人机视觉语言导航方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于目标层级树的无人机视觉语言导航方法,其特征在于...

【专利技术属性】
技术研发人员:罗晓燕薛瑞周亮宇
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1