【技术实现步骤摘要】
基于对抗对比学习的导航系统训练方法、装置及导航系统
[0001]本专利技术涉及视觉语言导航的
,尤其涉及一种基于对抗对比学习的导航系统训练方法、装置及导航系统。
技术介绍
[0002]视觉语言导航是指让智能体跟着自然语言指令进行导航,同时理解指令与视角中可以看见的图像信息,然后在环境中对自身所处状态加以调整、修复,做出对应的动作,最终到达目标位置。
[0003]为了进行成功的导航,视觉语言导航可以让智能体可以理解指令的意图并逐步将指令基于周围的观察结果,依次做出正确的动作决策,以在动态变化的场景中移动。目前常用的训练方法是设计交叉模态信息对齐模块进行训练,或通过数据增强策略进行训练或通过学习范例进行训练,提高视觉语言导航系统导航的准确率。
[0004]但是目前常用的训练方式有如下技术问题:由于上述训练方式均是假定障碍点进行训练,让智能体使用预定义的候选操作空间不受干扰地进行导航,但在实际使用过程中,在不同的位置可能会出现意外障碍(路肩、路障或各种家具建筑等),使得智能体无法在意外障碍下寻找行驶路径,导致 ...
【技术保护点】
【技术特征摘要】
1.一种基于对抗对比学习的导航系统训练方法,其特征在于,所述方法包括:在智能体移动时采集智能体处于不同模态下的模态信息,将所述模态信息编码成特征向量;当确定智能体停止移动时,根据所述特征向量获取隐藏状态向量;对所述隐藏状态向量进行轨迹编码得到轨迹编码数据;调用预设的障碍场景轨迹数据和预设的无障碍场景轨迹数据对所述轨迹编码数据进行对抗对比学习的训练模型,得到导航训练系统,其中,所述预设的障碍场景轨迹数据为智能体在障碍条件的导航轨迹数据,所述预设的无障碍场景轨迹数据为智能体在无障碍条件的导航轨迹数据。2.根据权利要求1所述的基于对抗对比学习的导航系统训练方法,其特征在于,所述调用预设的障碍场景轨迹数据和预设的无障碍场景轨迹数据对所述轨迹编码数据进行对抗对比学习的训练模型,包括:对所述预设的障碍场景轨迹数据和所述预设的无障碍场景轨迹数据进行对抗对比训练,分别得到训练障碍场景轨迹数据和训练无障碍场景轨迹数据;通过对比损失函数和梯度下降算法拉近所述训练障碍场景轨迹数据和所述训练无障碍场景轨迹数据得到拉近轨迹数据;利用所述拉近轨迹数据模仿训练所述轨迹编码数据。3.根据权利要求2所述的基于对抗对比学习的导航系统训练方法,其特征在于,所述对所述预设的障碍场景轨迹数据和所述预设的无障碍场景轨迹数据进行对抗对比训练,包括:以所述预设的障碍场景轨迹数据为预设的无障碍场景轨迹数据的负样本进行对抗对比训练。4.根据权利要求1所述的基于对抗对比学习的导航系统训练方法,其特征在于,所述模态信息包括由自然语言构成的指令信息以及由多个视点采集的图像信息,所述特征向量包括语言特征向量和视觉特征向量;所述将所述模态信息编码成特征向量,包括:采用预设的双向长短期记忆网络计算所述指令信息得到指令特征向量;利用预设的卷积神经网络计算所述图像信息得到视觉特征向量,其中,预设的卷积神经网络由ImageNet数据集训练得到。5.根据权利要求1所述的基于对抗对比学习的导航系统训练方法,其特征在于,所述根据所述特征向量获取隐藏状态向量,包括:将所述特征向量输入至预设的隐藏长短期记忆神经网络中转换生成隐藏状态向量。6.根据权利要求5所述的基于对抗对比学习的导航系统训练方法,其特征在于,所述对所述隐藏状态向量进行轨迹编码得到轨迹编码数据,包括:获取智能体从开始移动到停止时的多个隐藏状态向量;将所述多个隐藏状态向量构成序列化的隐...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。