【技术实现步骤摘要】
基于深度强化学习的智能移动平台无地图自主导航方法
本专利技术涉及视觉导航领域,特别涉及一种基于深度强化学习的智能移动平台无地图自主导航方法。
技术介绍
导航是智能移动平台的基本能力之一,是智能移动平台能够在环境中实现自主移动的前提。传统的导航技术往往要求移动平台携带大量的传感器去感知环境,预先构建导航场景的全局地图,该方法在环境发生变化时需要重新建立连通模型,实用性不强。结合深度神经网络的强化学习作为一种自学习能力较强的机器学习方法,相较于传统的导航策略,非常符合智能移动平台合理处理各种环境情况的需求。但采用深度强化学习策略的问题在于两个方面。首先,尽管一些论文认为在真实环境中使用深度强化学习对模型进行训练是可行的,但这种方法代价高昂,因为在真实环境中训练智能移动平台实体是非常耗时的,且有效数据集采集难度大。其次,视觉导航领域的标准强化学习算法往往针对某一个目标来训练模型的,在更换导航目标时,模型失效,需要重新训练,即目标被硬编码为网络参数的一部分,这种做法时间成本高,且通用性低。
技术实现思路
本专利技术的目的在于提供一种基于深度强化学习的智能移动平台无地图自主导航方法。实现本专利技术目的的技术解决方案为:一种基于深度强化学习的智能移动平台无地图自主导航方法,包括如下步骤:步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制;步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概 ...
【技术保护点】
1.一种基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,包括如下步骤:/n步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制;/n步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,进行动作预测;/n步骤3,根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则进入步骤4;否则转至步骤2;/n步骤4,根据最终获得的奖励值和状态价值构建Actor-Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;/n步骤5,重复步骤2~4,继续针对该目标图像进行训练,直至训练步数达到设定阈值;/n步骤6,获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。/n
【技术特征摘要】
1.一种基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,包括如下步骤:
步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制;
步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,进行动作预测;
步骤3,根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则进入步骤4;否则转至步骤2;
步骤4,根据最终获得的奖励值和状态价值构建Actor-Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;
步骤5,重复步骤2~4,继续针对该目标图像进行训练,直至训练步数达到设定阈值;
步骤6,获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。
2.根据权利要求1所述的基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,步骤1的具体过程为:
步骤11,在仿真框架中选取导航场景,网格化该导航场景,设置移动平台的初始位置为导航场景中的任一网格点;
步骤12,利用移动平台上搭载的RGB相机拍摄图片,将该图片作为初始观测信息;
步骤13,从导航场景中选取导航的目标图像;
步骤14,设置移动平台的动作空间,包括:前进、后退、左转、右转,其中前进步长、后退步长与网格单位尺寸相关,假设网格单位尺寸为0.5米,则前进步长、后退步长均为0.5米,而左转、右转角度均设置为90°;
步骤15,设置移动平台与导航环境交互时的奖惩机制,移动平台在规定步数内到达导航目标,则奖励值为10.0分;发生碰撞时,奖励值为-0.1分;除这两种情况外,每一时间步奖励值为-0.01分。
3.根据权利要求1所述的基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,步骤2的具体过程为:
步骤21,将当前状态观测信息与目标图像信息,分别输入到两个通道,这两个通道构成网络结构、参数完全一致的孪生层,每一通道包含深度神经网络ResNet-50与一个全连接层,对全连接层输出的两个特征向量进行堆叠,再输入一个全连接层得到融合特征向量;
步骤22,将融合特征向量输入到Actor-Critic网络,所述Actor-Critic网络包含两个...
【专利技术属性】
技术研发人员:裴必超,夏秀炎,魏扬帆,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。