一种基于历史上下文信息增强的视觉语言导航方法技术

技术编号：41326996 阅读：4 留言：0更新日期：2024-05-13 15:04

本发明专利技术属于视觉语言导航技术领域，具体为一种基于历史上下文信息增强的视觉语言导航方法。本发明专利技术包括显式建模语言指令和视觉观测之间的历史交互，捕获导航过程中长期的时间上下文；使用状态向量检索全局内存库,自适应选择历史导航中最重要的情景，并将历史导航情景压缩为全局记忆向量；引入长短时记忆网络，自适应地学习多模态融合网络输出的状态信息、全局记忆信息、和前序状态信息之间的关系，更新最终的状态向量。本发明专利技术可提高动作预测准确性，使得机器人具有更强大的时序记忆理解能力，更好地完成视觉语言导航任务。本发明专利技术解决了以前方法仅依赖前一个时间步的状态表示，不足以捕获长期时间上下文，从而遗漏有用历史导航信息的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视觉语言导航，具体涉及一种基于历史上下文信息增强的视觉语言导航方法。

技术介绍

1、让机器人理解并执行人类指令一直是人工智能研究的长期目标，为了实现这一点，机器人必须具备的一个关键能力是能够遵循人类指令，在复杂环境中进行导航。视觉语言导航就是致力于研究这样的方法，使得智能体能够在人类的指令引导下，在视觉环境中不断探索，最终到达指定地点。视觉语言导航任务可以被认为是一个部分可观察的马尔可夫决策过程，其中未来的观察取决于智能体的当前环境和动作，历史信息对未来决策有重要的指导意义。并且，视觉语言导航任务依赖移动过程中与环境的持续交互，在每个导航步骤中，视觉观察仅对应于部分指令，这就要求智能体能正确跟踪导航进度，并正确定位相关的子指令以获得用于决策的有用信息。然而，以前的方法大多仅依赖前一个时间步的状态表示，不足以捕获长期时间上下文，从而遗漏了有用的历史导航信息。

技术实现思路

1、本专利技术的目的在于提供一种基于历史上下文信息增强的视觉语言导航方法，以便使得机器人具有强大的时序记忆理解能力，提高动作预测准确性，更好地完成视觉语言导航任务。

2、本专利技术提供的基于历史上下文信息增强的视觉语言导航方法，包括：完整捕捉跨模态的历史交互信息，辅助定位当前导航进展，引导每个导航步骤中的视觉观察与相关子指令对齐，获得更有利于决策的关键信息，提高动作预测准确性，具体步骤为：

3、步骤1：获取完整的基于自然语言的导航指令，以及机器人(也可称为智能体)起始位置所处环

4、步骤2：根据导航指令，获取指令特征向量及初始状态向量，根据候选视图的视觉观测，获取场景特征向量；

5、步骤3：将状态向量、指令特征向量和场景特征向量输入到预设的视觉-语言交叉融合模块，获取跨模态融合特征，更新状态向量，并依据状态向量和场景特征向量之间的平均注意力权重做出下一步导航的动作选择；

6、步骤4：使用状态向量查询全局内存库，自适应选择哪些历史导航情景更能提示当前导航进程，获取全局记忆；

7、步骤5：将状态向量、全局记忆、上一个时刻的隐层输出、上一个时刻的记忆信息送入长短时记忆网络，建模时间关系，输出全局历史信息加强的状态向量；

8、步骤6：将更新后的状态向量，冻结的指令特征向量和新位置获取的场景特征向量送入预设的视觉-语言交叉融合模块，重复步骤2-5，直到智能体选择停止移动。

9、其中，所述视觉-语言交叉融合模块采用lxmert框架[3]，也称多模态交叉融合模块，其由多个多头注意力模块叠加组成；所述长短时记忆网络采用单层lstm模型[5]，设置隐层为768维。

10、进一步地，步骤2中所述根据导航指令，获取指令特征向量及初始状态向量，根据候选视图的视觉观测，获取场景特征向量，具体包括：

11、将分类标识符[cls]、导航指令i、分割标识符[sep]送入语言编码器(bert)[1]，获取指令特征向量x及初始状态向量s0，其公式如下；

12、s0,x＝bert([cls],i,[sep])， (1)

13、假设当前时刻为t，将候选视图的视觉观测ct送入图像编码器(resnet-152)[2]，获取当前观测图像特征向量vt'，并拼接上对应的位置信息特征dt，得到当前的场景特征vt，其公式如下：

14、vt'＝resnet-152(ct)， (2)

15、vt＝(vt',dt)， (3)。

16、进一步地，步骤3中所述通过视觉-语言交叉融合模块获取跨模态融合特征，更新状态向量，并做出下一步导航的动作选择，具体包括：

17、将状态向量st-1、指令特征向量x和场景特征向量vt输入到预设的视觉-语言交叉融合模块lxmert[3]，获取指令跨模态增强特征ftx'和ftv'，更新临时状态向量并依据临时状态向量和场景特征向量之间的平均注意力权重，做出下一步导航的动作选择，公式为：

18、

19、进一步地，将当前时刻视觉-语言交叉融合模块lxmert输出的临时状态向量与跨模态匹配信息和动作选择信息进行融合，包括：

20、对视觉-语言交叉融合模块lxmert最后一层第k头注意力输出的状态向量的查询矩阵分别和指令特征向量输出的键矩阵场景特征向量输出的键矩阵进行匹配，并对所有注意力头的分数进行平均，再应用softmax函数进行概率分布的调整，得到受状态向量注意力影响的指令特征权重和受状态向量注意力影响的场景特征权重对输入指令特征和场景特征执行加权求和，获得加权原始指令特征ftx和加权原始场景特征ftv；对ftx和ftv进行逐像素相乘，执行跨模态匹配，并与状态向量进行拼接并投影，得到融合了跨模态匹配信息的状态向量最后拼接上当前动作选择向量at，并映射成融合了动作选择信息的临时状态向量其公式为：

21、

22、

23、

24、

25、

26、进一步地，步骤4中所述使用状态向量查询全局内存库，自适应选择哪些历史导航情景更能提示当前导航进程，获取全局记忆，具体包括：

27、对当前时刻融合了跨模态匹配信息和动作选择信息的临时状态向量利用注意力机制，对历史导航情景进行自适应选择，检索出最重要的过往导航情景，并将历史导航情景压缩为全局记忆向量，包括：

28、状态向量和全局记忆内存m进行缩放点积注意力计算[4]，得到全局记忆向量ut，其公式为：

29、

30、进一步地，步骤5中所述通过输入长短时记忆网络[5]，建模时间关系，输出全局历史信息加强的状态向量，包括：

31、将状态向量和全局记忆向量ut拼接起来，作为长短时记忆网络当前时刻的输入，并联合上一时刻长短时记忆网络的输出ht-1和上一时刻的长短时记忆网络单元状态信息ct-1，共同更新长短时记忆网络，得到当前时刻的网络输出ht，将ht记为此轮更新后的状态向量st，并传递给下一个导航步骤，其公式为：

32、

33、st＝ht， (12)

34、将刻画每轮导航过程的状态向量st存入全局记忆内存，更新历史导航信息m。

35、进一步地，本专利技术中，多模态融合模型lxmert[3]作为历史上下文信息增强的视觉语言导航网络的骨干网络；在当前时刻t，其输入为状态向量st-1、指令本文档来自技高网...

【技术保护点】

1.一种基于历史上下文信息增强的视觉语言导航方法，其特征在于，包括：完整捕捉跨模态的历史交互信息，辅助定位当前导航进展，引导每个导航步骤中的视觉观察与相关子指令对齐，获得更有利于决策的关键信息，提高动作预测准确性，具体步骤为：

2.根据权利要求1所述的基于历史上下文信息增强的视觉语言导航方法，其特征在于，步骤2中所述根据导航指令，获取指令特征向量及初始状态向量，根据候选视图的视觉观测，获取场景特征向量，具体包括：

3.根据权利要求2所述的基于历史上下文信息增强的视觉语言导航方法，其特征在于，步骤3中所述通过视觉-语言交叉融合模块获取跨模态融合特征，更新状态向量，并做出下一步导航的动作选择，具体包括：

4.根据权利要求3所述的基于历史上下文信息增强的视觉语言导航方法，其特征在于，步骤4中所述使用状态向量查询全局内存库，自适应选择哪些历史导航情景更能提示当前导航进程，获取全局记忆，具体包括：

5.根据权利要求4所述的基于历史上下文信息增强的视觉语言导航方法，其特征在于，步骤5中所述通过输入长短时记忆网络，建模时间关系，输出全局历史信息加强的状态向量，包括：

6.根据权利要求5所述的基于历史上下文信息增强的视觉语言导航方法，其特征在于，以多模态融合模型LXMERT作为历史上下文信息增强的视觉语言导航网络的骨干网络，在当前时刻t，其输入为状态向量st-1、指令特征向量X和场景特征向量Vt，并通过以下方式训练所述的视觉语言导航网络，包括：

...

【技术特征摘要】

4.根据权...

【专利技术属性】
技术研发人员：王乐，吴晓峰，张文强，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人