一种基于视觉与语言的无人机导航方法、装置、终端设备及存储介质制造方法及图纸

技术编号:45852040 阅读:16 留言:0更新日期:2025-07-19 11:12
本发明专利技术公开了一种基于视觉与语言的无人机导航方法、装置、终端设备及存储介质,涉及无人机导航领域,方法包括:获取无人机所在环境的各个视角的图像以及自然语言导航指令;通过预训练的视觉语言模型提取各个视角的图像的视觉特征,通过预训练的大型语言模型提取自然语言导航指令中每一地标短语对应的地标词特征,基于预训练的视觉语言模型,通过交叉注意力机制得到每一地标短语对应的潜在地标候选项;通过预训练的大型语言模型确定所有目标地标;根据所有目标地标得到可行路径;基于可行路径,实现无人机的导航。通过实施本发明专利技术能够解决现有无人机导航技术难以实现无人机在小众场景或未知环境中的导航的问题。

【技术实现步骤摘要】

本专利技术涉及无人机导航领域,尤其涉及一种基于视觉与语言的无人机导航方法、装置、终端设备及存储介质


技术介绍

1、传统无人机导航通常采用直接控制方法,即通过向无人机发送预设指令来控制其运动。这些方法通常基于预定义的路径或实时传感器数据,对于需要精确机动的任务至关重要。直接控制方法在目标明确且环境稳定的任务中具有较高的效率。而自然语言指令可能存在歧义,导致无人机误解,从而引发无人机错误操作或任务失败。在城市环境中,面对倒塌的建筑结构、复杂的电磁条件或不可预期的干扰时,直接控制方法缺乏灵活性,可能导致飞行不稳定,从而限制其动态交互能力。此外,直接控制方法缺乏自主性,无法独立处理任务,因此不太适合长时间或远程作业。

2、端到端无人机导航系统利用机器学习技术,将传感器输入直接映射到控制动作,从而消除了手工特征提取和决策过程的需要。这些系统在处理复杂数据结构以及在不同环境中提供更好的泛化能力方面显示出潜力。指令级控制涉及对高级命令或指令的解释,以引导无人机的行为。这种方法使得与无人机的交互更接近人类行为,使其能够根据自然语言指令适应变化的环境。采用变换本文档来自技高网...

【技术保护点】

1.一种基于视觉与语言的无人机导航方法,其特征在于,包括:

2.如权利要求1所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述获取无人机所在环境的各个视角的图像,包括:

3.如权利要求2所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述基于预训练的视觉语言模型,通过交叉注意力机制将每一地标短语对应的地标词特征与各视觉特征进行跨模态匹配,得到每一地标短语对应的预设数量的潜在地标候选项;包括:

4.如权利要求3所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述基于每一地标短语以及每一地标短语对应的各潜在地标候选项,通过预训练的大型语...

【技术特征摘要】

1.一种基于视觉与语言的无人机导航方法,其特征在于,包括:

2.如权利要求1所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述获取无人机所在环境的各个视角的图像,包括:

3.如权利要求2所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述基于预训练的视觉语言模型,通过交叉注意力机制将每一地标短语对应的地标词特征与各视觉特征进行跨模态匹配,得到每一地标短语对应的预设数量的潜在地标候选项;包括:

4.如权利要求3所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述基于每一地标短语以及每一地标短语对应的各潜在地标候选项,通过预训练的大型语言模型确定所有目标地标;包括:

5.如权利要求4所述的一种基于视觉与语言的无人机导航方法,其特征在于,通过以下步骤,控制无人机实现无人机的导航:

6.如权...

【专利技术属性】
技术研发人员:郑心湖李天顺李振怀天一高亦纯李昊昂
申请(专利权)人:香港科技大学广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1