基于改进的DDPG算法的机器人路径导航方法及系统技术方案

技术编号:30075107 阅读:12 留言:0更新日期:2021-09-18 08:29
本发明专利技术公开了基于改进的DDPG算法的机器人路径导航方法及系统,获取机器人当前状态信息和目标位置;将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据,完成无碰撞的路径导航;改进的DDPG网络将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成;好奇心奖励机制模型,包括:若干个依次串联的LSTM模型;所述依次串联的LSTM模型中,所有LSTM模型的输入端与Actor当前网络的输出端连接,最后一个LSTM模型的输出端与CNN模型的输入端连接,CNN模型的输出端与Actor当前网络的输入端连接。基于好奇心的机器人路径导航可以使机器人更加智能。奇心的机器人路径导航可以使机器人更加智能。奇心的机器人路径导航可以使机器人更加智能。

【技术实现步骤摘要】
基于改进的DDPG算法的机器人路径导航方法及系统


[0001]本专利技术涉及路径规划
,特别是涉及基于改进的DDPG算法的机器人路径导航方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]随着人工智能技术的发展,机器人已经从原来的工业生产领域逐渐进入我们的日常生活中。尤其近几年来在服务业领域有着蓬勃发展的势头。人类社会对移动机器人的需求也越来越强烈。而对机器人的路径规划是机器人领域需要解决的关键问题。移动机器人的路径规划是一个复杂的问题,需要自主移动的机器人根据约束条件能够找到一条从初始位置到目标位置的一条无障碍路径。随着机器人所面对的环境越来越复杂,要求机器人需要具有在更高的水平上预期障碍物并避免与之碰撞的能力。
[0004]传统的导航解决方案例如遗传算法、模拟退火算法等在导航方面有较好的效果。但是这些方法都是假定环境已知的情况下,设计出一套普适的解决方案。随着机器人应用于各行各业,机器人所处的环境也变得越来越复杂。之前的一些解决方案就不能很好的解决这些问题。结合了强化学习和深度学习的深度强化学习方法近些年来被广泛应用于机器人路径导航领域。深度学习在特征提取和事物感知等方面具有独特的优势,已广泛应用于计算机视觉等领域。强化学习具有较好的决策能力,能够在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标。深度学习与强化学习相结合的深度强化学习成功解决了复杂环境中机器人导航问题。深度确定性策略梯度(DDPG)算法是最早提出来的深度强化学习网络之一。作为深度强化学习中的经典算法,DDPG算法针对的是连续的、高纬度行为空间的策略学习方法。相比于之前的强化学习方法,DDPG算法在连续控制问题上有着较大的优势,已经被应用于机器人路径导航、自动驾驶、机械臂控制等众多领域。
[0005]但是,对超参数的敏感性以及趋于发散的奖励值一直以来是DDPG难以很好解决的问题之一。在强化学习中奖励值R的反馈通常是人为进行的硬编码,由于每一步的奖励无法简单的预判,奖励函数的设计通常是稀疏的,这就导致了机器人无法获得即时的反馈,学习能力不高。
[0006]在实现本专利技术的过程中,专利技术人发现现有技术中存在以下技术问题:
[0007]基于现有技术实现的机器人路径导航,存在导航不够精确的问题。

技术实现思路

[0008]为了解决现有技术的不足,本专利技术提供了基于改进的DDPG算法的机器人路径导航方法及系统;
[0009]第一方面,本专利技术提供了基于改进的DDPG算法的机器人路径导航方法;
[0010]基于改进的DDPG算法的机器人路径导航方法,包括:
[0011]获取机器人当前状态信息和目标位置;
[0012]将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;
[0013]机器人根据最优可执行动作数据,完成无碰撞的路径导航;
[0014]其中,所述改进的DDPG网络基于DDPG网络,将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成;所述好奇心奖励机制模型,包括:若干个依次串联的LSTM模型;所述依次串联的LSTM模型中,所有LSTM模型的输入端与Actor当前网络的输出端连接,最后一个LSTM模型的输出端与CNN模型的输入端连接,CNN模型的输出端与Actor当前网络的输入端连接。
[0015]第二方面,本专利技术提供了基于改进的DDPG算法的机器人路径导航系统;
[0016]基于改进的DDPG算法的机器人路径导航系统,包括:
[0017]获取模块,其被配置为:获取机器人当前状态信息和目标位置;
[0018]输出模块,其被配置为:将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;
[0019]导航模块,其被配置为:机器人根据最优可执行动作数据,完成无碰撞的路径导航;
[0020]其中,所述改进的DDPG网络基于DDPG网络,将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成;所述好奇心奖励机制模型,包括:若干个依次串联的LSTM模型;所述依次串联的LSTM模型中,所有LSTM模型的输入端与Actor当前网络的输出端连接,最后一个LSTM模型的输出端与CNN模型的输入端连接,CNN模型的输出端与Actor当前网络的输入端连接。
[0021]第三方面,本专利技术还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
[0022]第四方面,本专利技术还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
[0023]与现有技术相比,本专利技术的有益效果是:
[0024]本专利技术利用好奇心产生的内部奖励与算法的外部奖励总和作为机器人与环境交互产生的总奖励。在奖励函数模块嵌入了长短期记忆人工神经网络(LSTM)与卷积神经网络(CNN)。将过去的多个状态输入LSTM网络,输出对下一个状态的预测,下一个状态的预测值与实际状态之间的差值作为内部奖励。在人类社会中,人们对接下来发生的事情的与预测往往是根据以往的经验,这里将LSTM网络嵌入到好奇心机制中正是借鉴了这个人类思维特点。同时使用CNN网络对上一个网络产生的下一个状态进行动作的反向预测。好奇心一直被一些科学家认为是智能的基本属性之一,基于好奇心的机器人路径导航可以使机器人更加智能,即使在奖励稀疏甚至是无外部奖励的情况下,机器人也可以像人类一样进行摸索。
[0025]本专利技术借鉴人类的思维特征,在奖励函数模块中嵌入好奇心机制。同时将最近的batch个状态作为经验数据输入到机器人的好奇心机制中,利用了具有长短期记忆功能的LSTM网络对下一个状态进行预测,使基于好奇心的预测可以保持其时序性。同时将预测的下一个状态与实际下一个状态之差作为内部奖励值,可以解决原有的DDPG算法奖励稀疏的
问题。
[0026]本专利技术使用了具有特征提取功能的CNN网络,将LSTM网络预测出的下一个状态S
t+1
'与实际的状态S
t
作为输入,输出对动作A
t
的预测值A
t
',将实际的动作A
t
与CNN网络预测出的动作A
t
'之间的差值作为一个约束条件。利用梯度的反向传播同时训练LSTM网络和CNN网络。添加CNN模块后可以提取出对动作有关键影响的状态特征。
[0027]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0028]构成本专利技术的一部分的说明书附图用来提供对本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进的DDPG算法的机器人路径导航方法,其特征是,包括:获取机器人当前状态信息和目标位置;将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;机器人根据最优可执行动作数据,完成无碰撞的路径导航;其中,所述改进的DDPG网络基于DDPG网络,将DDPG网络的奖励值计算利用好奇心奖励机制模型来完成;所述好奇心奖励机制模型,包括:若干个依次串联的LSTM模型;所述依次串联的LSTM模型中,所有LSTM模型的输入端与Actor当前网络的输出端连接,最后一个LSTM模型的输出端与CNN模型的输入端连接,CNN模型的输出端与Actor当前网络的输入端连接。2.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;具体包括:将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,改进的DDPG网络的Actor模块生成最优可执行动作数据。3.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;其中,改进的DDPG网络,包括:依次连接的Actor模块、经验回放池和Critic模块;其中,Actor模块,包括依次连接的Actor当前网络和Actor目标网络;其中,Critic模块,包括依次连接的Critic当前网络和Critic目标网络;其中,Actor当前网络与好奇心奖励机制模型的所有的LSTM模型连接;Actor当前网络还与好奇心奖励机制模型的CNN模型的输出端连接。4.如权利要求1所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,将机器人当前状态信息及目标位置,输入到训练后的改进的DDPG网络中,得到最优可执行动作数据;其中,训练后的改进的DDPG网络的训练步骤包括:(1)构建训练集;所述训练集包括已知机器人导航路径的机器人每个时刻的状态;(2)将训练集输入到改进的DDPG网络中,完成改进的DDPG网络的Actor模块的训练、Critic模块的训练以及好奇心奖励机制模型的训练。5.如权利要求4所述的基于改进的DDPG算法的机器人路径导航方法,其特征是,所述完成好奇心奖励机制模型的训练,训练步骤包括:(a)机器人选择在状态S
t
下对应的动作A
t
,并通过与环境交互产生下一个状态S
t+1
和奖励值R;(b)将机器人与环境交互产生的经验数据(S
t
,A
t
,R,S
t+1
,done)存入经验回放池中,经验回放池中新增一个堆栈结构,以便按照时序性存取经验数据,done代表是否完成机器人导航;(c)将堆栈结构中带有时序性的经验数据输入LSTM网络,如图2所示,首个LSTM模型只输入对应时刻的机器人状态信息;非首个LSTM模型的输入均由两部分组成,一部分是对应时刻的机器人状态信息,另外一部分是前一时刻的LSTM模型的输出...

【专利技术属性】
技术研发人员:吕蕾赵盼盼周青林
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1