一种基于开放场景地图的视觉语言导航方法、装置及介质制造方法及图纸

技术编号:38346920 阅读:13 留言:0更新日期:2023-08-02 09:27
本发明专利技术公开了一种基于开放场景地图的视觉语言导航方法、装置及介质,属于智能导航技术领域。其中方法包括:获取智能体在环境中的视觉图像数据;根据视觉图像数据构建开放场景地图表征,所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图;根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作。本发明专利技术将物体属性层级信息结合开放场景物体和指令标志物的语义信息,将以上信息结合构建开放场景地图,提升该地图对开放场景中多样化物体的属性、位置的表征能力,使地图表征不局限于固定的少量物体类别,且增加的物体属性信息可帮助智能体消除物体类别歧义,准确定位感兴趣物体。趣物体。趣物体。

【技术实现步骤摘要】
一种基于开放场景地图的视觉语言导航方法、装置及介质


[0001]本专利技术涉及智能导航
,尤其涉及一种基于开放场景地图的视觉语言导航方法、装置及介质。

技术介绍

[0002]具身智能的出现为提升当前人工智能认知能力、走向通用智能提供了重要技术路线。通过与环境交互的渠道,智能体可从真实物理或虚拟数字空间中获取真实反馈,从而进一步学习和进步,其中,视觉语言导航旨在使智能体能够跟随自然语言指令进行自主导航,近年来逐步受到广泛关注,已成为具身智能的研究热点之一,在人机交互、家居服务机器人等方面有着巨大的潜在应用价值。
[0003]目前,现有方法提出基于地图的模块化方式实现视觉语言导航,通过构建语义地图以表征环境信息。然而,现有方法所构建的语义地图仍然存在两个主要问题:1)现有地图构建方式忽略了物体自身所包含的丰富属性信息(如颜色、纹理等),从而导致物体歧义。比如,当房间内有两张不同颜色的沙发,如果地图只能表示沙发这个语义类别,则无法区分两张沙发;2)现有地图构建方式仅能表示有限的物体类别(通常为40类)。实际指令和场景中往往包含复杂多样的物体类别信息,现有语义地图难以对其进行有效表示,进而影响智能体的导航性能。因此,如何在地图中融入物体的细节属性信息并准确表示开放场景中的多样物体类别信息是目前视觉语言导航任务的研究热点与难点之一。

技术实现思路

[0004]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种基于开放场景地图的视觉语言导航方法、装置及介质。
[0005]本专利技术所采用的技术方案是:一种基于开放场景地图的视觉语言导航方法,包括以下步骤:获取智能体在环境中的视觉图像数据;所述视觉图像数据包括RGB图像和深度图像;根据视觉图像数据构建开放场景地图表征,所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图;根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作。
[0006]进一步地,所述根据视觉图像数据构建开放场景地图表征,包括:根据RGB图像和深度图像获取物体属性层级地图;根据RGB图像、深度图像和预设的开放场景物体类别获取开放场景物体语义地图;根据RGB图像、深度图像和预设的导航指令获取标志物语义层级地图;将物体属性层级地图、开放场景物体语义地图和标志物语义层级地图分别经过卷积层,在子空间连接后,再经过卷积层得到开放场景地图表征。
[0007]进一步地,所述物体属性层级地图具体通过以下方式获得:将RGB图像输入经过训练的深度神经网络,获取深度神经网络的中间层特征图;将获得的中间层特征图,根据深度图像的深度信息进行映射,得到物体属性层级地图。
[0008]进一步地,所述开放场景物体语义地图具体通过以下方式获得:将预设的开放场景物体类别和RGB图像输入到面向开放词汇的目标检测器,检测得到开放场景物体位置;将检测得到的开放场景物体位置,根据深度图像的深度信息进行映射,得到开放场景物体语义地图。
[0009]进一步地,所述标志物语义层级地图具体通过以下方式获得:将导航指令输入标志物解析器,得到指令中的标志物类别;将得到的标志物类别输入到面向开放词汇的目标检测器,得到标志物位置;根据得到的标志物位置以及深度图像的深度信息进行映射,得到标志物语义层级地图。
[0010]进一步地,所述标志物解析器采用GPT大语言模型来实现,所述目标检测器采用GLIP模型来实现。
[0011]进一步地,所述根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作,包括:将开放场景地图表征与指令输入GRU,得到智能体当前的状态特征;将得到状态特征经过子目标点预测器,预测子目标点距离当前位置的相对坐标偏移;根据相对坐标偏移预测当前状态下的导航进度,以及根据子目标点位置和导航进度获取智能体下一步动作。
[0012]本专利技术所采用的另一技术方案是:一种基于开放场景地图的视觉语言导航装置,包括:数据获取模块,用于获取智能体在环境中的视觉图像数据;所述视觉图像数据包括RGB图像和深度图像;表征构建模块,用于根据视觉图像数据构建开放场景地图表征,所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图;导航应用模块,用于根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作。
[0013]本专利技术所采用的另一技术方案是:一种基于开放场景地图的视觉语言导航装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述方法。
[0014]本专利技术所采用的另一技术方案是:一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行
的程序在由处理器执行时用于执行如上所述方法。
[0015]本专利技术的有益效果是:本专利技术将物体属性层级信息结合开放场景物体和指令标志物的语义信息,将以上信息结合构建开放场景地图,提升该地图对开放场景中多样化物体的属性、位置的表征能力,使地图表征不局限于固定的少量物体类别,且增加的物体属性信息可帮助智能体消除物体类别歧义,准确定位感兴趣物体。
附图说明
[0016]为了更清楚地说明本专利技术实施例或者现有技术中的技术方案,下面对本专利技术实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本专利技术的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0017]图1是本专利技术实施例中一种基于开放场景地图的视觉语言导航方法的步骤流程图;图2是本专利技术实施例中开放场景地图构建模块示意图。
具体实施方式
[0018]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0019]在本专利技术的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0020]在本专利技术的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0021]此外,在本专利技术的描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于开放场景地图的视觉语言导航方法,其特征在于,包括以下步骤:获取智能体在环境中的视觉图像数据;所述视觉图像数据包括RGB图像和深度图像;根据视觉图像数据构建开放场景地图表征,所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图;根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作。2.根据权利要求1所述的一种基于开放场景地图的视觉语言导航方法,其特征在于,所述根据视觉图像数据构建开放场景地图表征,包括:根据RGB图像和深度图像获取物体属性层级地图;根据RGB图像、深度图像和预设的开放场景物体类别获取开放场景物体语义地图;根据RGB图像、深度图像和预设的导航指令获取标志物语义层级地图;将物体属性层级地图、开放场景物体语义地图和标志物语义层级地图分别经过卷积层,在子空间连接后,再经过卷积层得到开放场景地图表征。3.根据权利要求1所述的一种基于开放场景地图的视觉语言导航方法,其特征在于,所述物体属性层级地图具体通过以下方式获得:将RGB图像输入经过训练的深度神经网络,获取深度神经网络的中间层特征图;将获得的中间层特征图,根据深度图像的深度信息进行映射,得到物体属性层级地图。4.根据权利要求1所述的一种基于开放场景地图的视觉语言导航方法,其特征在于,所述开放场景物体语义地图具体通过以下方式获得:将预设的开放场景物体类别和RGB图像输入到面向开放词汇的目标检测器,检测得到开放场景物体位置;将检测得到的开放场景物体位置,根据深度图像的深度信息进行映射,得到开放场景物体语义地图。5.根据权利要求1所述的一种基于开放场景地图的视觉语言导航方法,其特征在于,所述标志物语义层级地图具体通过以下方式获得:将导航指令输入标志物解析器,得到指令中的标志物类别;将得...

【专利技术属性】
技术研发人员:谭明奎陈沛豪吉冬昱林坤阳杜卿
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1