一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统及其方法技术方案

技术编号：41129905 阅读：2 留言：0更新日期：2024-04-30 17:59

本发明专利技术公开一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统，所述智能体导航系统包括图像特征提取模块、位点预测器、全景编码器、拓扑图层、跨模态规划模块和路径执行模块；所述图像特征提取模块包括整体编码器、语义编码器和深度编码器和融合特征单元；所述跨模态规划模块包括文本编码器、跨模态编码器和前馈网络；所述跨模态编码器为多层网络结构层；每一层包含一个双向的跨模态注意力子层、自注意力子层和两个前馈子层；所述路径执行模块包括路径规划单元和动作执行单元；所述图像特征提取模块用于对智能体观察图像提取整体特征和语义特征f<supgt;s</supgt;和深度特征f<supgt;d</supgt;进行相加获得融合的图像特征v<supgt;img</supgt;；本发明专利技术提出的视觉语言导航方法增强了智能体对环境的感知并且避免了导航过程中对历史的灾难性遗忘。

全部详细技术资料下载

【技术实现步骤摘要】

：本专利技术涉及视觉语言导航跨模态，具体涉及一种基于多种视觉特征的连续环境中的视觉语言导航方法。

技术介绍

0、
技术介绍
：

1、视觉语言导航任务(vision-and-language navigation，vln)的要求是给定一个自然语言指令，智能体根据指令和周围的环境到达目标定位，需要智能体拥有将视觉观察与指令文本联系在一起的能力来进行每一步的决策制定。早期的工作主要聚焦在离散的vln设置[1]中，智能体只需要在给定了导航图的环境中选择预先定义好的位点进行传送。然而，离散vln有很多不真实的假设，因此，更接近真实世界设置的连续vln[2]被提出，连续vln任务没有场景的导航图，要求智能体使用低层次动作在环境中自由地导航。

2、连续环境中的vln比离散vln更加困难，由于两个任务存在的域差距，在离散vln中表现良好的智能体在连续vln中的性能会大幅降低，因此，连续vln中的很多工作致力于缩小两个任务之间的导航性能差距，目前连续vln提出的大多数方法都使用了以前的工作[3]中提到的位点预测器，将任务分解为位点生成、跨模态规划和导航控制等子模块，相比起直接从指令和环境中预测低层次动作的端到端方法，更加简单明了。

3、为了加强智能体对指令中语义信息的理解，并将环境中出现的地标与指令中的关键物体相对应，有些工作在导航过程中构建自我为中心的语义地图[4,5,6]，并执行跨模态对齐来对齐语义地图和指令，这种方法加强了智能体的语义感知和空间推理的能力。

4、为了加强对长程导航的历史记忆，存储导

5、然而，现有方法存在以下两个问题：

6、(1)基于语义图的方法忽略了物体的细节信息，在出现多个同类物体时容易出现混淆，并且在连续环境中忽略了视图间的对应关系，在长时间的导航中很容易遗忘以前访问过的位置和采取的动作；

7、(2)基于拓扑图的方法采用的视觉特征一般只包含隐含的语义信息，没有纹理等细粒度信息，并且缺乏物体之间的空间表达能力。

技术实现思路

0、
技术实现思路
：

1、针对现有技术存在的技术问题，本专利技术提出了一种基于多种视觉特征的连续环境中的视觉语言导航方法，本专利技术通过在视觉特征中融合了包含高级特征和低级特征的语义信息，并将视觉特征存储在拓扑图的节点中，联合了语义图和拓扑图的优点，使得智能体对环境中的地标有更敏锐的感知的同时，避免了导航过程中的灾难性遗忘。

2、为了达到以上目的，本专利技术采用如下技术方案：

3、一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统，所述智能体导航系统包括图像特征提取模块、位点预测器、全景编码器、拓扑图层、跨模态规划模块和路径执行模块；所述图像特征提取模块包括整体编码器、语义编码器和深度编码器和融合特征单元；所述跨模态规划模块包括文本编码器、跨模态编码器和前馈网络；所述跨模态编码器为多层网络结构层；每一层包含一个双向的跨模态注意力子层、自注意力子层和两个前馈子层；所述路径执行模块包括路径规划单元和动作执行单元；其中：

4、所述图像特征提取模块用于对智能体观察图像提取整体特征fr和语义特征fs和深度特征fd

5、进行相加获得融合的图像特征vimg；

6、所述全景编码器对图像特征提取模块融合的图像特征和智能体方向信息计算获得智能体当前节点的视觉特征

7、所述位点预测器根据智能体当前位置得到的深度特征fd计算获得智能体当前节点的可达候选位点；

8、所述拓扑图层将可达候选位点计算后与智能体当前节点的视觉特征映射获得智能体导航拓扑图gt；

9、所述跨模态编码器将智能体导航拓扑图节点和文本编码器提取指令特征计算获得图跨模态注意力编码；

10、所述前馈网络根据图跨模态注意力编码计算停止分数最大的可导航节点作为智能体长期位点目标

11、所述路径规划单元根据智能体导航拓扑图gt中记录的距离信息计算当前节点与智能体长期位点目标之间的最短路径作为当前节点到的最短路径规划pt，即：

12、

13、其中：pn和n分别代表路径中途径节点的位置和数量；

14、所述动作执行单元采用低层次动作控制智能体执行规划pt，一步步到达长期目标位点并更新对应位置的视觉观察图像。

15、进一步地，所述图像特征提取模块用于对智能体观察图像提取整体特征fr和语义特征fs和深度特征fd进行相加获得融合的图像特征vimg过程；包括：

16、所述整体编码器基于在cllp上预训练的vit-b/32模型提取rgb图像的整体特征fr；

17、所述语义编码器基于预训练的语义分割resnet-18模型提取rgb图像的语义特征fs；

18、所述深度编码器基于在point-goal navigation任务上预训练的resnet-50模型提取深度图像的深度特征fd；其中：

19、通过平均池化和最大池化对于整体特征和语义特征分别进行展平，再经过dropout层和一个线性层和层归一化获得处理后的整体特征vr和语义特征vs；

20、通过平均池化对于深度特征进行展平，再进行层归一化得到处理后的深度特征vd；

21、将所述整体特征vr、语义特征vs和深度特征vd相加得到融合的图像特征vimg，计算公式如下：

22、

23、

24、

25、

26、vimg＝[vr；vd；vs]

27、其中：上标r，d，s分别代表rgb，深度，语义，avgpool表示平均池化层，maxpool表示最大池化层，ln表示归一化层，dropout表示随机丢弃层。

28、进一步地，所述拓扑图层将可达候选位点计算后与智能体当前节点的视觉特征映射获得智能体导航拓扑图gt过程；包括：

29、所述拓扑图在每个时间步记录智能体当前所在的节点和已经观察到且还没有访问的可导航节点的视觉特征和位置信息，通过位点定位函数将候选的k个位点转化为拓扑图中的节点，随后对前一步的拓扑图gt-1进行更新得到新的拓扑图gt；其中：

30、所述拓扑图的边的权重为两个节点之间的欧氏距离；所述拓扑图包含三种类型的节点：已访问节点，当前节点，已经观察到且还没有访问的可导航节点；所述拓扑图的节点的视觉特征为视觉观察图像的整体特征fr、语义特征fs、深度特征fd和方向特征fo经过基于transformer架构的全景编码器的融合；所述全景编码器得到的全景编码包含12个不同角度的视觉信息，取所有角度的视觉信息的平均值作为当前节点的视觉特征；对于已经被观察到但是没有被访问的可导航节点，选取可导航节点可以被观察到的角度的对应视本文档来自技高网...

【技术保护点】

1.一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统，其特征在于，所述智能体导航系统包括图像特征提取模块、位点预测器、全景编码器、拓扑图层、跨模态规划模块和路径执行模块；所述图像特征提取模块包括整体编码器、语义编码器和深度编码器和融合特征单元；所述跨模态规划模块包括文本编码器、跨模态编码器和前馈网络；所述跨模态编码器为多层网络结构层；每一层包含一个双向的跨模态注意力子层、自注意力子层和两个前馈子层；所述路径执行模块包括路径规划单元和动作执行单元；其中：

2.根据权利要求1所述的一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统，其特征在于：所述图像特征提取模块用于对智能体观察图像提取整体特征fr和语义特征fs和深度特征fd进行相加获得融合的图像特征vimg过程；包括：

3.根据权利要求1所述的一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统，其特征在于：所述拓扑图层将可达候选位点计算后与智能体当前节点的视觉特征映射获得智能体导航拓扑图Gt过程；包括：

4.根据权利要求3所述的一种基于多种视觉特征的连续环境中的视觉语言

5.根据权利要求1所述的一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统，其特征在于：所述跨模态编码器将智能体导航拓扑图节点特征和文本编码器提取指令特征计算获得图跨模态注意力编码过程；包括：

6.一种基于多种视觉特征的连续环境中的视觉语言对智能体导航方法，其特征在于：所述智能体导航方法采用如权利要求1中系统，包括如下步骤：

7.根据权利要求6所述的一种基于多种视觉特征的连续环境中的视觉语言对智能体导航方法，其特征在于：获得智能体导航拓扑图Gt过程；包括：

8.根据权利要求6所述的一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统，其特征在于：获得图跨模态注意力编码过程；包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求6-8中的任一项所述的方法步骤。

...

【技术特征摘要】

3.根据权利要求1所述的一种基于多种视觉特征的连续环境中的视觉语言对智能体导航系统，其特征在于：所述拓扑图层将可达候选位点计算后与智能体当前节点的视觉特征映射获得智能体导航拓扑图gt过程；包括：

4.根据权利要求3所述的一种基于多种视觉特征的...

【专利技术属性】
技术研发人员：刘若楠，孔萍，张卫东，杨博渊，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人