【技术实现步骤摘要】
本专利技术涉及无人机导航领域,尤其涉及一种基于视觉与语言的无人机导航方法、装置、终端设备及存储介质。
技术介绍
1、传统无人机导航通常采用直接控制方法,即通过向无人机发送预设指令来控制其运动。这些方法通常基于预定义的路径或实时传感器数据,对于需要精确机动的任务至关重要。直接控制方法在目标明确且环境稳定的任务中具有较高的效率。而自然语言指令可能存在歧义,导致无人机误解,从而引发无人机错误操作或任务失败。在城市环境中,面对倒塌的建筑结构、复杂的电磁条件或不可预期的干扰时,直接控制方法缺乏灵活性,可能导致飞行不稳定,从而限制其动态交互能力。此外,直接控制方法缺乏自主性,无法独立处理任务,因此不太适合长时间或远程作业。
2、端到端无人机导航系统利用机器学习技术,将传感器输入直接映射到控制动作,从而消除了手工特征提取和决策过程的需要。这些系统在处理复杂数据结构以及在不同环境中提供更好的泛化能力方面显示出潜力。指令级控制涉及对高级命令或指令的解释,以引导无人机的行为。这种方法使得与无人机的交互更接近人类行为,使其能够根据自然语言指令适应
...【技术保护点】
1.一种基于视觉与语言的无人机导航方法,其特征在于,包括:
2.如权利要求1所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述获取无人机所在环境的各个视角的图像,包括:
3.如权利要求2所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述基于预训练的视觉语言模型,通过交叉注意力机制将每一地标短语对应的地标词特征与各视觉特征进行跨模态匹配,得到每一地标短语对应的预设数量的潜在地标候选项;包括:
4.如权利要求3所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述基于每一地标短语以及每一地标短语对应的各潜在地标候选项
...【技术特征摘要】
1.一种基于视觉与语言的无人机导航方法,其特征在于,包括:
2.如权利要求1所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述获取无人机所在环境的各个视角的图像,包括:
3.如权利要求2所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述基于预训练的视觉语言模型,通过交叉注意力机制将每一地标短语对应的地标词特征与各视觉特征进行跨模态匹配,得到每一地标短语对应的预设数量的潜在地标候选项;包括:
4.如权利要求3所述的一种基于视觉与语言的无人机导航方法,其特征在于,所述基于每一地标短语以及每一地标短语对应的各潜在地标候选项,通过预训练的大型语言模型确定所有目标地标;包括:
5.如权利要求4所述的一种基于视觉与语言的无人机导航方法,其特征在于,通过以下步骤,控制无人机实现无人机的导航:
6.如权...
【专利技术属性】
技术研发人员:郑心湖,李天顺,李振,怀天一,高亦纯,李昊昂,
申请(专利权)人:香港科技大学广州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。