【技术实现步骤摘要】
本专利技术涉及视觉语言导航,具体地讲,是涉及一种基于视觉与文本常识增强的具身智能体室内导航方法。
技术介绍
1、随着具身智能技术的快速发展,视觉语言导航(vision-and-languagenavigation,vln)作为一种重要的人工智能导航任务,结合了计算机视觉、自然语言处理和机器人学等多个领域的技术,已逐渐成为具身智能领域的研究热点。vln任务要求智能机器人能够理解和执行自然语言指令,并结合来自环境的视觉信息进行有效的导航。这一任务不仅对智能机器人的感知与决策能力提出了高要求,而且涉及到复杂的多模态信息融合,是智能机器人在现实世界中执行任务的关键能力之一。近年来,vln任务得到了广泛关注,并取得了一定的研究进展,尤其是在室内导航、自动驾驶和增强现实等领域的应用前景。
2、早期的vln方法主要基于lstm架构构建模型,但这些方法在利用长期历史信息方面存在明显不足,难以有效捕捉和理解复杂的时空结构。为了提升模型性能,部分vln方法引入了数据增强策略,旨在增强代理对环境信息的理解能力,并促进多模态的对齐与融合。随着tra
...【技术保护点】
1.一种基于视觉与文本常识增强的具身智能体室内导航方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于视觉与文本常识增强的具身智能体室内导航方法,其特征在于,所述步骤S10中,将Matterport3D模拟器中的全景图输入BLIP-2模型,通过设定的用于描述房间类型特点的提示词来限定生产的房间类型文本描述的内容范围;然后将获取的房间类型文本描述用于向ChatGPT模型提问,通过预设的提示词,针对每种房间类型中最常见的指定数量个物体,获取相应的地标知识,形成每个房间类型的地标常识。
3.根据权利要求2所述的基于视觉与文本常识增强的具身智
...【技术特征摘要】
1.一种基于视觉与文本常识增强的具身智能体室内导航方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于视觉与文本常识增强的具身智能体室内导航方法,其特征在于,所述步骤s10中,将matterport3d模拟器中的全景图输入blip-2模型,通过设定的用于描述房间类型特点的提示词来限定生产的房间类型文本描述的内容范围;然后将获取的房间类型文本描述用于向chatgpt模型提问,通过预设的提示词,针对每种房间类型中最常见的指定数量个物体,获取相应的地标知识,形成每个房间类型的地标常识。
3.根据权利要求2所述的基于视觉与文本常识增强的具身智能体室内导航方法,其特征在于,所述步骤s20中,为每个相同房间类型的不同全景图生成不同的常识性视觉图像,以覆盖房间类型的不同布局和地标配置。
4.根据权利要求3所述的基于视觉与文本常识增强的具身智能体室内导航方法,其特征在于,所述步骤s40中,将步骤s30获取的全景图输入到视觉编码器中,提取视图的视觉特征;将步骤s30获取的指令数据集输入到文本编码器中,提取指令的文本特征。
5.根据权利要求4所述的基于视觉...
【专利技术属性】
技术研发人员:赵柏聿,高放,唐镜峰,麻胜恒,
申请(专利权)人:中科深圳无线半导体有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。