【技术实现步骤摘要】
一种基于follower模型的视觉语言导航方法
[0001]本专利技术属于智能算法领域,基于深度学习的方法解决机器人学和人工智能交叉学科中的视觉语言导航问题。具体涉及一种基于follower模型的视觉语言导航方法。
技术介绍
[0002]使机器人能够理解自然语言指令,并在现实环境中结合视觉信息,执行相应动作移动到指定目的地。这种简单的导航任务就被称为视觉语言导航(Vision
‑
and
‑
Language Navigation,VLN)
[1]。VLN是将语言、视觉和导航在非结构化、不可见的环境中连接起来的一项非常重要的任务。在现实意义上,一个能清楚理解人类语言并在现实环境中进行智能移动的机器人可以最大程度地减少人类的操控和监督,为人类执行重复性的体力劳动或危险的任务等,如桥梁检查,消防救火。在科学意义上,探索机器人如何解释人类语言和感知视觉环境的能力,可以促进计算机视觉和自然语言处理及机器人学等相关领域的交叉发展。
[0003]在视觉和语言导航(VLN)任务中,房间到房间 ...
【技术保护点】
【技术特征摘要】
1.一种基于follower模型的视觉语言导航方法,follower模型由编码器和解码器组成,编码器和解码器均采用长短期记忆网络结构,编码器用于对视觉图像特征进行预处理,解码器用于预测下一时间步动作;其特征在于,还包括跨模态对比学习模块和视觉变分自编码器模块,follower模型、跨模态对比学习模块和视觉变分自编码器模块共同组成智能体导航模型,所述跨模态对比学习模块用于学习语言和视觉两种跨模态信息;所述视觉变分自编码器模块包括视觉编码器和视觉解码器,用于学习视觉图像特征的分布;智能体导航模型的损失函数由Loss1、Loss2和Loss3组成,Loss1是视觉变分自编码器模块的损失函数,包括视觉特征重建损失和衡量分布相似性的KL散度;Loss2是follower模型的损失函数,并增设有一个随时间递增的超参数,用以约束智能体导航模型,避免智能体导航模型的导航误差随时间累积过大,Loss3是跨模态对比学习模块的损失函数,采用对比学习损失函数。2.根据权利要求1所述一种基于follower模型的视觉语言导航方法,其特征在于,所述跨模态对比学习模块能够拉近相似跨模态信息在隐空间中的距离,拉远不相似跨模态信息在隐空间中的距离,使智能体导航模型能有效地编码语言信息和视觉信息。3.根据权利要求1所述一种基于follower模型的视觉语言导航方法,其特征在于,所述视觉变分自编码器模块首先对输入的视觉图像特征进行编码,得到一个拟合分布函数,并从拟合分布函数中解码出与输入的视觉图像特征相似的视觉图像特征,以增加训练时视觉信息的多样性,提高智能体导航模型在未见过的视觉环境中的泛化性能。4.根据权利要求1或3所述一种基于follower模型的视觉语言导航方法,其特征在于,所述视觉变分自编码器模块中的视觉编码器编码注意力特征向量v
t,att
,输出当前时间步t编码后的记忆向量h
e,t
,然后使用h
e,t
计算均值和对数方差,如式(4
‑
1)和式(4
‑
2)所示:μ
t
=W3h
e,t
+b3#(4
‑
1)其中μ
t
为均值,为对数方差,W3和W4为对应的权重矩阵,b3和b4为对应的偏置项;之后从高维标准高斯分布N(0,I)中随机采样一个噪声向量ε
t
,计算出将要输入到视觉解码器中的采样记忆向量如式(4
‑
3)所示:3)所示:输入到视觉解码器中,经过解码重建出一个新的视觉特征表示向量每一时间步t的视觉变分自编码器模块的损失函数Loss
t,1
包含两部分,即注意力特征向量v
t,att
的重建损失和视觉编码器拟合分布函数的KL散度损失,如式(4
‑
4)所示:4)所示:其中d是注意力特征向量v
t,att
的维度数,是第d
m
维的均值,是第d
m
维的方差,Loss1是所有时间步的Loss
t,1
的求和,Loss1的值越小,则视觉变分自编码器模块训练得越好。
5.根据权利要求4所述一种基于follower模型的视觉语言导航方法,其特征在于,follower模型中,重建出的和上一时间步t
‑
1的预测导航方向的视觉图像特征u
t
进行拼接,得到拼接向量拼接向量x
t
再输入到follower模型的解码器中;计算每一时间步t的预测动作和真实动作标签之间的交叉熵损失Loss
′
t,2
;在计算Loss
′
t,2
时,对于不同时间步的Loss
′
t,2
,乘上一个与时间步t有关的递增权重γ
t
;权重γ
t
的计算方式与乘上权重γ
t
后的Loss
t,2
如式(4
‑
6)和式(4
‑
7)所示:Loss
t,2
=γ
t
Loss
′
t,2
#(4
‑
7)其中l
episode
是智能体导航模型在进行动作预测时所允许的最大时间步数,超参数β=0.5,Loss
′
t,2
是原始的交叉熵损失...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。