视觉导航方法及装置制造方法及图纸

技术编号:39740191 阅读:17 留言:0更新日期:2023-12-17 23:41
本公开提供了一种视觉导航方法及装置

【技术实现步骤摘要】
视觉导航方法及装置、电子设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及计算机视觉

自然语言处理

深度学习等
,具体涉及一种视觉导航方法及装置

电子设备

计算机可读存储介质和计算机程序产品


技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为
(
如学习

推理

思考

规划等
)
的学科,既有硬件层面的技术也有软件层面的技术

人工智能硬件技术一般包括如传感器

专用人工智能芯片

云计算

分布式存储

大数据处理等技术;人工智能软件技术主要包括计算机视觉技术

语音识别技术

自然语言处理技术以及机器学习
/
深度学习

大数据处理技术

知识图谱技术等几大方向

[0003]智能体
(Agent)
是人工智能领域中的概念,其指的是具有自主行为能力并且能够与环境进行交互的实体,例如工业机器人

家用机器人
(
包括扫地机器人

人形机器人等
)、
商用机器人
(
包括送餐机器人

导览机器人等
)、
自动驾驶车辆等

[0004]视觉导航任务是智能体的常见任务

在视觉导航任务中,智能体以导航指令
(
即,任务信息
)
为输入,根据其当前采集到的视觉图像信息执行导航动作,以到达导航指令所指示的导航目标
(
例如桌子

椅子

水杯等
)


[0005]在此部分中描述的方法不一定是之前已经设想到或采用的方法

除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术

类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认


技术实现思路

[0006]本公开提供了一种视觉导航方法及装置

电子设备

计算机可读存储介质和计算机程序产品

[0007]根据本公开的一方面,提供了一种视觉导航方法,包括:基于任务信息的数据模态,从多个编码器中确定用于对所述任务信息进行编码的目标编码器,其中,所述任务信息指示智能体的导航目标,所述多个编码器与多种数据模态分别对应,所述多个编码器中的每个编码器被配置为将相应数据模态的数据映射至同一个特征空间;利用所述目标编码器对所述任务信息进行编码,以得到任务特征;对所述智能体的当前视觉信息进行编码,以得到当前视觉特征;以及基于所述任务特征和所述当前视觉特征,确定所述智能体当前待执行的动作,其中,所述动作引导所述智能体向所述导航目标移动

[0008]根据本公开的另一方面,提供了一种视觉导航装置,包括:第一确定模块,被配置为基于任务信息的数据模态,从多个编码器中确定用于对所述任务信息进行编码的目标编码器,其中,所述任务信息指示智能体的导航目标,所述多个编码器与多种数据模态分别对应,所述多个编码器中的每个编码器被配置为将相应数据模态的数据映射至同一个特征空间;第一编码模块,被配置为利用所述目标编码器对所述任务信息进行编码,以得到任务特
征;第二编码模块,被配置为对所述智能体的当前视觉信息进行编码,以得到当前视觉特征;以及第二确定模块,被配置为基于所述任务特征和所述当前视觉特征,确定所述智能体当前待执行的动作,其中,所述动作引导所述智能体向所述导航目标移动

[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法

[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述方法

[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时能够实现上述方法

[0012]根据本公开的一个或多个实施例,能够提高智能体在开放世界下的视觉导航能力

[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围

本公开的其它特征将通过以下的说明书而变得容易理解

附图说明
[0014]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式

所示出的实施例仅出于例示的目的,并不限制权利要求的范围

在所有附图中,相同的附图标记指代类似但不一定相同的要素

[0015]图1示出了根据本公开实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0016]图2示出了根据本公开实施例的视觉导航方法的流程图;
[0017]图3示出了根据本公开实施例的视觉导航系统的示意图;
[0018]图4示出了根据本公开实施例的视觉导航装置的结构框图;以及
[0019]图5示出了能够用于实现本公开实施例的示例性电子设备的结构框图

具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的

因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围

同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述

[0021]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系

时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开

在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例

[0022]在本公开中,对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制

除非上下文另外明确地表明,如果不特意限定要素的数量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种视觉导航方法,包括:基于任务信息的数据模态,从多个编码器中确定用于对所述任务信息进行编码的目标编码器,其中,所述任务信息指示智能体的导航目标,所述多个编码器与多种数据模态分别对应,所述多个编码器中的每个编码器被配置为将相应数据模态的数据映射至同一个特征空间;利用所述目标编码器对所述任务信息进行编码,以得到任务特征;对所述智能体的当前视觉信息进行编码,以得到当前视觉特征;以及基于所述任务特征和所述当前视觉特征,确定所述智能体当前待执行的动作,其中,所述动作引导所述智能体向所述导航目标移动
。2.
根据权利要求1所述的方法,其中,所述导航目标包括目标对象或目标位置,并且其中,所述任务信息包括以下至少一种:所述目标对象的图像

所述目标对象的描述文本

所述目标对象发出的声音

通往所述目标位置的路径的图像

通往所述目标位置的路径的描述文本
。3.
根据权利要求1或2所述的方法,还包括:获取所述任务信息的输入接口;以及基于多个数据接口与多种数据模态的对应关系,确定所述任务信息的数据模态
。4.
根据权利要求1‑3中任一项所述的方法,其中,所述当前视觉信息包括环境图像和所述环境图像的深度信息,所述深度信息包括与所述环境图像中的多个像素分别对应的多个空间点,所述对所述智能体的当前视觉信息进行编码,以得到当前视觉特征包括:提取所述环境图像的图像特征;基于所述环境图像的语义分割结果和所述深度信息,确定所述智能体的视野范围内的俯视语义图;以及提取所述俯视语义图的语义特征,其中,所述当前视觉特征包括所述图像特征和所述语义特征
。5.
根据权利要求4所述的方法,其中,所述基于所述环境图像的语义分割结果和所述深度信息,确定所述智能体的视野范围内的俯视语义图包括:基于所述语义分割结果,确定所述多个空间点各自的语义类别;将所述视野范围内的空间划分为柱状的多个网格;对于所述多个网格中的每个网格,基于所述网格内的空间点的语义类别,确定所述网格的语义类别;以及基于所述多个网格各自的语义类别,生成所述俯视语义图,其中,所述俯视语义图中的每个像素对应于所述多个网格中的一个网格,所述像素的像素值为相应网格的语义类别
。6.
根据权利要求1‑5中任一项所述的方法,其中,所述基于所述任务特征和所述当前视觉特征,确定所述智能体当前待执行的动作包括:对所述任务特征和所述当前视觉特征进行编码,以得到当前子任务特征;基于所述当前子任务特征,确定所述智能体当前的导航子目标位置;以及基于所述导航子目标位置,确定所述动作,其中,所述动作引导所述智能体向所述导航子目标位置移动
。7.
根据权利要求6所述的方法,其中,所述对所述任务特征和所述当前视觉特征进行编
码,以得到当前子任务特征包括:基于注意力机制,从所述当前视觉特征中提取出与所述任务特征相关的第一注意力特征;将所述任务特征

所述当前视觉特征和所述第一注意力特征进行融合,以得到第一融合特征;以及对所述第一融合特征进行编码,以得到所述当前子任务特征
。8.
根据权利要求6或7所述的方法,其中,所述对所述任务特征和所述当前视觉特征进行编码,以得到当前子任务特征包括:获取针对所述导航目标的历史子任务特征序列,其中,所述历史子任务特征序列的初始值为空;以及对所述任务特征

所述当前视觉特征和所述历史子任务特征序列进行编码,以得到所述当前子任务特征
。9.
根据权利要求6‑8中任一项所述的方法,其中,所述基于所述当前子任务特征,确定所述智能体当前的导航子目标位置包括:将所述当前子任务特征和所述当前视觉特征进行融合,以得到第二融合特征;以及基于所述第二融合特征,预测所述导航子目标位置
。10.
根据权利要求9所述的方法,其中,所述将所述当前子任务特征和所述当前视觉特征进行融合,以得到第二融合特征包括:基于注意力机制,从所述当前视觉特征中提取出与所述当前子任务特征相关的第二注意力特征;以及...

【专利技术属性】
技术研发人员:汪浩然谢泽柯蔡云峰孙明明
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1