一种基于场景融合知识的视觉语言导航方法、装置及介质制造方法及图纸

技术编号:37850829 阅读:19 留言:0更新日期:2023-06-14 22:40
本发明专利技术公开了一种基于场景融合知识的视觉语言导航方法、装置及介质,其中方法包括:获取视觉语言导航任务;根据视觉语言导航任务获取自然语言指令特征、场景特征和物体特征,使用基于语义和位置感知的图卷积网络迭代更新物体特征的权重,使用场景中的物体标签检索出知识增强的物体特征;使用基于场景和知识感知的多模态决策模块,融合所述自然语言指令特征、场景特征和物体特征,进行动作预测并更新智能体的运行状态,直到智能体选择停下。本发明专利技术通过利用场景中物体和知识的语义和位置关系,使得场景特征和自然语言指令特征进行更好地对齐,并让智能体在有限的视觉观察和未见过的环境中能有效地导航。本发明专利技术可广泛应用于视觉语言导航技术领域。觉语言导航技术领域。觉语言导航技术领域。

【技术实现步骤摘要】
一种基于场景融合知识的视觉语言导航方法、装置及介质


[0001]本专利技术涉及视觉语言导航
,尤其涉及一种基于场景融合知识的视觉语言导航方法、装置及介质。

技术介绍

[0002]随着近年来人工智能技术的发展和成熟,计算机视觉,自然语言处理和机器人技术在各个领域都取得广泛应用。为机器人赋予人的智能,让智能体能“读懂”人类的语言,“看懂”视觉的信息,并自主行动来服务人类是人们长期努力的目标。视觉语言导航领域就是在研究这样的方法,使得智能体能在自然语言的指令引导下,不断在视觉环境中探索,最终完成指定的任务。
[0003]现有的视觉语言导航方法大多基于视觉特征,自然语言自然语言指令特征的融合和对齐,使得智能体能按照路径导向的指令进行循迹导航。然而在现实场景中,更有实际应用价值的是寻物导航任务。这类任务中的自然语言指令往往只包含目标物体的描述信息,并不会给出详细的路径描述。在现有的模型下,智能体受限于有限的指令内容以及对场景整体布局感知的不足,难以有效地在环境中进行探索并找到目标的物体。

技术实现思路

[0004]为至少一定本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于场景融合知识的视觉语言导航方法,其特征在于,包括以下步骤:获取视觉语言导航任务,所述视觉语言导航任务包括自然语言指令,以及初始的视觉信息和位置信息;将自然语言指令编码成自然语言指令特征和智能体初始的运行状态;将视觉信息和位置信息进行编码并拼接,得到场景特征;从视觉信息中提取出物体标签,将物体的语义标签和位置信息编码成物体特征,以更新图卷积网络中的节点表征;使用基于语义和位置感知的图卷积网络迭代更新物体特征的权重,使用场景中的物体标签检索出知识增强的物体特征;使用基于场景和知识感知的多模态决策模块,融合所述自然语言指令特征、场景特征以及经过知识增强的物体特征,进行动作预测并更新智能体的运行状态,直到智能体选择停下。2.根据权利要求1所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述基于语义和位置感知的图卷积网络通过的运行机制为:构建物体和知识图:将物体和知识构成图结构,物体和知识之间的关系为知识库中对应的关系,物体和物体之间则定义一种隐式的关系;嵌入边关系表征:获得边关系的嵌入;对不同的物体和知识之间的关系嵌入得到不同的关系表征,物体和物体之间隐式的关系也作为一种特殊的关系嵌入;嵌入节点表征:对所有节点进行语义编码成向量,对已访问的物体进行位置编码,对未访问的物体以及所有知识实体节点的位置编码初始化为全零向量;结合图卷积网络和边信息表征,对图中的节点进行特征更新,得到最终的图节点表征;输入当前场景对应的物体标签类型,输出图卷积更新表征后的经过知识增强过后的物体特征。3.根据权利要求2所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述结合图卷积网络和边信息表征,对图中的节点进行特征更新,得到最终的图节点表征,包括:A1、对邻居节点求和,并加上边嵌入表征来更新目标节点的特征表示;A2、为了更好地表示目标节点,最后更新时也加上目标节点自身的特征,然后将输出结果经过非线性的激活函数,得到节点的更新表示;A3、使用多层的图卷积模型结构迭代步骤A1

A2,得到最终的图节点表征。4.根据权利要求2所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述构建物体和知识图,包括:使用预设网络模型检测获得物体标签列表作为索引,在预设知识库中检索出相关性权重最高的k条知识。5.根据权利要求1所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述基于场景和知识感知的多模态决策模块的运行机制为:使用选择性注意力机制融合多模态表征;更新智能体的运行状态:在每一时刻,将多模态决策模块的最后一层的状态变量对自然语言指令特征和对应的注意力分数的加权求和值,以及对视觉特征和注意力分数的加权
求和值拼接起来,经过线性变换得到新的状态特征;动态聚合场景和知识:根据状态特征对同一视图中的场景特征和知识增强的物体特征的注意力分数进行排序,选取注意力分数最大值作为该视图的评分;输出智能体的决策:对所有不同的视图的最后评分进行Softmax,选取评分的最大值对应的视图作为智能体移动的方向;如果评分的最大值对应的是当前视图,则智能体选择停下。6.根据权利要求5所述的一种基于场景融合知识的视觉语言导航方法,其特征在于,所述使...

【专利技术属性】
技术研发人员:谭明奎罗宇成刘飞杜卿
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1