基于深度强化学习的智能移动平台无地图自主导航方法技术

技术编号:24116532 阅读:25 留言:0更新日期:2020-05-13 01:53
本发明专利技术公开了一种基于深度强化学习的智能移动平台无地图自主导航方法,在AI2‑THOR仿真框架中选取导航场景;构建基于Actor‑Critic框架的深度强化学习模型;根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则更新模型参数,否则继续动作交互;构建Actor‑Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;重复训练,直至训练步数达到设定阈值;获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。本发明专利技术无需提前构建环境模型,即可实现显示环境的导航。

【技术实现步骤摘要】
基于深度强化学习的智能移动平台无地图自主导航方法
本专利技术涉及视觉导航领域,特别涉及一种基于深度强化学习的智能移动平台无地图自主导航方法。
技术介绍
导航是智能移动平台的基本能力之一,是智能移动平台能够在环境中实现自主移动的前提。传统的导航技术往往要求移动平台携带大量的传感器去感知环境,预先构建导航场景的全局地图,该方法在环境发生变化时需要重新建立连通模型,实用性不强。结合深度神经网络的强化学习作为一种自学习能力较强的机器学习方法,相较于传统的导航策略,非常符合智能移动平台合理处理各种环境情况的需求。但采用深度强化学习策略的问题在于两个方面。首先,尽管一些论文认为在真实环境中使用深度强化学习对模型进行训练是可行的,但这种方法代价高昂,因为在真实环境中训练智能移动平台实体是非常耗时的,且有效数据集采集难度大。其次,视觉导航领域的标准强化学习算法往往针对某一个目标来训练模型的,在更换导航目标时,模型失效,需要重新训练,即目标被硬编码为网络参数的一部分,这种做法时间成本高,且通用性低。
技术实现思路
本专利技术的目的在于提供一种基于深度强化学习的智能移动平台无地图自主导航方法。实现本专利技术目的的技术解决方案为:一种基于深度强化学习的智能移动平台无地图自主导航方法,包括如下步骤:步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制;步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,进行动作预测;步骤3,根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则进入步骤4;否则转至步骤2;步骤4,根据最终获得的奖励值和状态价值构建Actor-Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;步骤5,重复步骤2~4,继续针对该目标图像进行训练,直至训练步数达到设定阈值;步骤6,获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。与现有技术相比,本专利技术的显著优点在于:1)通过将导航目标作为网络输入,避免了导航目标更换时模型的重训练问题,且训练好的模型对未经过训练的目标有较高的泛化性能;2)采用AI2-THOR仿真环境训练模型,训练样本的采集更高效,且训练好的模型经过少量参数微调后能直接应用于现实环境,模型的迁移性迁移性与实用性更高;3)采用LSTM层记录历史决策,提升了模型的收敛能力,训练好的模型能以更少的步数到达导航目标。附图说明图1为本专利技术基于Actor-Critic框架的深度强化学习模型的结构图。图2为本专利技术智能移动平台执行动作后当前观测信息改变的示意图。图3为本专利技术基于深度强化学习的无地图自主导航方法的流程图。具体实施方式下面结合附图和具体实施例,对本专利技术方案作进一步的说明。基于深度强化学习的智能移动平台无地图自主导航方法,包括如下步骤:步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制,具体步骤包括:步骤11,在仿真框架中选取导航场景,网格化该导航场景,设置移动平台的初始位置为导航场景中的任一网格点;步骤12,利用移动平台上搭载的RGB相机拍摄图片,将该图片作为初始观测信息;步骤13,从导航场景中选取导航的目标图像;步骤14,设置移动平台的动作空间,包括:前进、后退、左转、右转,其中前进步长、后退步长与网格单位尺寸相关,假设网格单位尺寸为0.5米,则前进步长、后退步长均为0.5米,而左转、右转角度均设置为90°;步骤15,设置移动平台与导航环境交互时的奖惩机制,移动平台在规定步数内到达导航目标,则奖励值为10.0分;发生碰撞时,奖励值为-0.1分;除这两种情况外,每一时间步奖励值为-0.01分。步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,如图1所示;步骤21,将当前状态观测信息与目标图像信息,分别输入到两个通道,这两个通道构成网络结构、参数完全一致的孪生层,每一通道包含深度神经网络ResNet-50与一个全连接层,对全连接层输出的两个特征向量进行堆叠,再输入一个全连接层得到融合特征向量;步骤22,将融合特征向量输入到Actor-Critic网络,所述Actor-Critic网络包含两个全连接层、一个LSTM层与一个softmax层,融合特征向量经过一个全连接层、一个LSTM层后分别输入到一个softmax层与一个全连接层,得到动作概率分布与当前状态的价值,其中得到动作概率分布的是softmax层,得到当前状态价值的是全连接层。步骤3,根据贪心算法在动作概率分布中选取概率值最大的动作,作为移动平台的执行动作,对移动平台与导航场景进行交互,根据步骤1中设计的奖惩机制计算奖励值,同时更新当前观测信息,如图2所示,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数tmax,则进入步骤4;否则转至步骤2,预测下一步的动作概率分布和状态价值。步骤4,根据步骤3最终获得的奖励值和状态价值计算优势值,进而确定Actor-Critic网络的损失函数,然后计算损失函数对网络参数的梯度,并采用异步优势算法A3C来训练并更新深度强化学习模型的参数;步骤41,计算优势值Advantage,公式为:Advantage=Rt-V(st,gt|θv)其中,st、gt、rt为离散时刻t下移动平台的当前观测值、导航目标、获取的奖励值,θv为Critic网络的参数,V(st,gt|θv)为Critic网络输出的当前状态的价值,Rt表示从时间步t开始直到移动平台到达目标或累计时间步达到tmax步的累计奖励,st+1为执行动作at后的下一时刻状态观测值,st+k为执行k步动作后更新的状态观测值,且k不大于tmax,γi为采取第i步动作获得奖励的折扣率;步骤42,构建Actor网络与Critic网络的损失函数分别为lossπ、lossv,进而确定总损失函数losstotal;lossπ=lnπ(st,gt|θπ)(Rt-V(st,gt|θv))+βH(π(st,gt|θπ))lossv=(Rt-V(st,gt|θv))2losstotal=lossπ+lossvH(π(st,gt|θπ))=-∑π(st,gt|θπ).ln(clip(π(st,gt|θπ),10-20,1))其中θπ为Actor网络参数,π(st,本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,包括如下步骤:/n步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制;/n步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,进行动作预测;/n步骤3,根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则进入步骤4;否则转至步骤2;/n步骤4,根据最终获得的奖励值和状态价值构建Actor-Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;/n步骤5,重复步骤2~4,继续针对该目标图像进行训练,直至训练步数达到设定阈值;/n步骤6,获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。/n

【技术特征摘要】
1.一种基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,包括如下步骤:
步骤1,在AI2-THOR仿真框架中选取导航场景,并确定智能移动平台的初始位置、初始观测信息、导航目标、动作空间与奖惩机制;
步骤2,以移动平台对导航环境的观测信息与目标图像信息为输入,以在动作空间上的概率分布与当前状态的价值为输出,构建基于Actor-Critic框架的深度强化学习模型,进行动作预测;
步骤3,根据动作概率分布进行移动平台与导航场景的动作交互,更新奖励值和当前观测信息,若当前观测信息与目标图像信息匹配,或达到最大移动步数,或连续采取动作数达到设定步数,则进入步骤4;否则转至步骤2;
步骤4,根据最终获得的奖励值和状态价值构建Actor-Critic网络的损失函数,采用异步优势算法A3C训练更新深度强化学习模型;
步骤5,重复步骤2~4,继续针对该目标图像进行训练,直至训练步数达到设定阈值;
步骤6,获取实际导航场景的初始观测信息与目标图像,利用训练好的模型进行导航,规划智能移动平台的导航路径。


2.根据权利要求1所述的基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,步骤1的具体过程为:
步骤11,在仿真框架中选取导航场景,网格化该导航场景,设置移动平台的初始位置为导航场景中的任一网格点;
步骤12,利用移动平台上搭载的RGB相机拍摄图片,将该图片作为初始观测信息;
步骤13,从导航场景中选取导航的目标图像;
步骤14,设置移动平台的动作空间,包括:前进、后退、左转、右转,其中前进步长、后退步长与网格单位尺寸相关,假设网格单位尺寸为0.5米,则前进步长、后退步长均为0.5米,而左转、右转角度均设置为90°;
步骤15,设置移动平台与导航环境交互时的奖惩机制,移动平台在规定步数内到达导航目标,则奖励值为10.0分;发生碰撞时,奖励值为-0.1分;除这两种情况外,每一时间步奖励值为-0.01分。


3.根据权利要求1所述的基于深度强化学习的智能移动平台无地图自主导航方法,其特征在于,步骤2的具体过程为:
步骤21,将当前状态观测信息与目标图像信息,分别输入到两个通道,这两个通道构成网络结构、参数完全一致的孪生层,每一通道包含深度神经网络ResNet-50与一个全连接层,对全连接层输出的两个特征向量进行堆叠,再输入一个全连接层得到融合特征向量;
步骤22,将融合特征向量输入到Actor-Critic网络,所述Actor-Critic网络包含两个...

【专利技术属性】
技术研发人员:裴必超夏秀炎魏扬帆
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1