智能水下机器人垂直面路径跟随的深度强化学习控制方法技术

技术编号:22053944 阅读:34 留言:0更新日期:2019-09-07 14:49
本发明专利技术提供的是一种智能水下机器人垂直面路径跟随的深度强化学习控制方法。步骤一,根据智能水下机器人的路径跟随控制要求,建立与代理人进行交互的智能水下机器人环境;步骤二,建立代理人集合;步骤三,建立经验缓存池;步骤四,建立学习者;步骤五,使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。本发明专利技术针对智能水下机器人所处海洋环境复杂多变,传统控制方法无法与环境主动进行交互的现象,设计智能水下机器人垂直面路径跟随的深度强化学习控制方法。使用确定性策略梯度通过分布式的方法来完成智能水下机器人的路径跟随控制任务,具有自学习,精度高,适应性好,学习过程稳定的优点。

Deep Reinforcement Learning Control Method for Vertical Path Following of Intelligent Underwater Vehicle

【技术实现步骤摘要】
智能水下机器人垂直面路径跟随的深度强化学习控制方法
本专利技术涉及的是一种水下航行器控制方法,具体地说是一种智能水下机器人垂直面路径跟随的深度强化学习控制方法。
技术介绍
随着海洋开发的不断深入,智能水下机器人由于其具有运动灵活、携带方便、可自主作业等特点已被广泛应用于海洋环境保护、海洋资源开发,其地位日益重要。此外通过准确控制智能水下机器人,使得一些极其危险的任务变得安全,例如探索海底石油,修复海底管道,以及追踪和记录易爆物的位置。传统的路径跟随控制方法诸如模糊逻辑控制、PID控制、S面控制需要人为的调整控制参数,控制效果依赖于人的经验,智能水下机器人不能主动的与环境进行交互。近年来,随着人工智能技术的快速发展,作为人工智能的重要内容之一,强化学习近年来取得了一系列的重大突破。在强化学习中,学习者不会被告知要采取哪些行动,而是必须通过尝试来发现哪些行动会产生最大的回报。行动不仅可以影响直接奖励,还可以影响下一个时刻的状态,并通过这种状态影响所有后续的奖励。
技术实现思路
本专利技术的目的在于提供一种具有自学习、精度高的特点,可以适应各种复杂海洋环境的智能水下机器人垂直面路径跟随的深度强化学习控制方法。本专利技术的目的是这样实现的:步骤一,根据智能水下机器人的路径跟随控制要求,建立与代理人进行交互的智能水下机器人环境;步骤二,建立代理人集合;步骤三,建立经验缓存池;步骤四,建立学习者;步骤五,使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。本专利技术还可以包括:1.所述建立与代理人进行交互的智能水下机器人环境是将智能水下机器人的路径跟随控制过程建模成一个马尔可夫决策过程,确定马尔可夫决策过程的主要组成部分:动作空间、状态空间、观测空间、奖励函数。2.所述确定马尔可夫决策过程的主要组成部分具体包括:(1)确定动作空间动作空间表达式为F=[delS],其中delS表示智能水下机器人水平舵的舵角;(2)确定状态空间状态空间表达式为S=[w,q,z,theta],其中w表示智能水下机器人在随体坐标系下的升沉速度,q表示智能水下机器人在随体坐标系下的俯仰角速度,z表示智能水下机器人在大地坐标系下的深度,theta表示智能水下机器人在大地坐标系下的俯仰角;(3)确定观测空间观测空间是状态空间的函数:O=f(S),其中跟随直线路径为:O=[w,q,zdelta,cos(theta),sin(theta)],zdelta=z-zr,zr表示直线路径所在的深度;(4)确定奖励函数在强化学习中,代理的目的或目标是根据特殊信号形成的,称为奖励或奖励函数,从环境传递给代理人,用于评价智能水下机器人在前一时刻采取动作后导致产生的当前状态的效果:R(s,a)=R(s)+R(a)其中:R(s)=-(αww2+αqq2+αzzdelta2+αttheta2)R(a)=-(αa1delS2)其中αw、αq、αz、αt、αa1是权重系数。3.所述建立代理人集合具体包括:(1)同时建立K个动作网络,K个动作网络同时与智能水下机器人环境进行交互来建立代理人集合;(2)代理人集合从学习者处接收网络参数用于代理人集合中动作网络的更新,代理人集合将动作网络与智能水下机器人环境进行交互得到的经验元祖传递到经验缓存池,单个经验元祖的表达式是:(oi,ai,R(s,a)i)。4.所述建立经验缓存池具体包括:经验缓存池从代理人集合处接收代理人集合中是动作网络与智能水下机器人环境进行交互得到的经验元祖,经验缓存池将依据优先级采样得到的经验元祖传递到学习者,优先级采样的表达式为:其中,pi是经验元祖i的优先级,α是一个大于0的很小的系数、用来决定优先级的程度,如果α=0,那么优先级采样就变为随机均匀采样。5.所述建立学习者具体包括:(1)学习者网络从经验缓存池处接收依据优先级采样得到的经验元祖,并将其学习得到的网络参数传递到代理人集合;(2)学习者采用演员—评论家结构,其中演员网络的输入是观测空间,输出是动作空间,即控制变量,表达式为F=[delS],动作网络与演员网络结构相同;评论家网络的输入是观测空间和动作空间,输出是Z的分布,进而通过分布求得Z的均值,Z表示在第t时间步,根据策略π,在状态是s时,采取动作a后期望得到的回报,即状态-动作值,采用求状态-动作值分布的形式比单纯直接求状态-动作值的平均值或只求一个状态-动作值的形式。6.所述使用分布式确定性策略梯度进行智能水下机器人路径跟随控制具体包括:(1)初始化依据优先级采样得到的经验元祖的大小为M=256,经验缓存池的大小为R=1000000,动作网络的个数K不超过10个,学习者中的演员网络和评论家网络的学习率为α0=β0=0.0001,探索常数ε=0.00001,最大探索次数E=100,每次探索的最大探索步数是T=1000;(2)采用随机方式初始化动作网络和学习者中演员—评论家网络的网络权重参数(θ,w),其中θ是动作网络和学习者中演员网络的参数,w是学习者中评论家网络的参数;(3)使用第(2)步的初始化参数为学习者中的演员网络和评论家网络分别建立一个目标网络,目标网络的参数记为(θ',w');(4)并行运行K个动作网络;(5)从经验缓存池中根据优先级pi选取长度为N的样本经验元祖M((oi:i+N,ai:i+N-1,R(o,a)i:i+N-1);(6)构造Z的分布(7)依据下式计算动作网络和学习者中演员—评论家网络的更新(8)更新网络参数θ←θ+αtδθ,w←w+βtδw;(9)如果每次探索的步数到达1000,结束当前次数的探索;如果没有达到,返回第(5)步;(10)如果探索次数达到100,结束实验;如果没有达到,返回第(2)步;(11)返回动作网络,即包含合适参数θ的智能水下机器人路径跟随控制模型。7.所述并行运行K个动作网络具体包括:1)选择动作a,其中第二项表示固定的高斯噪声;2)执行动作a,得到回报R(s,a)和下一时刻的观测状态o';3)将经验元祖(oi,ai,R(s,a)i)存储在经验缓存池中;4)重复步骤1)-3),直至收敛或训练结束。本专利技术提供了一种智能水下机器人垂直面路径跟随的深度强化学习控制方法,针对智能水下机器人所处海洋环境复杂多变,传统控制方法无法与环境主动进行交互的现象,设计智能水下机器人垂直面路径跟随的深度强化学习控制方法。本专利技术利用强化学习能主动与环境进行交互的特点,提出使用确定性策略梯度通过分布式的方法来完成智能水下机器人的路径跟随控制任务,具有自学习,精度高,适应性好,学习过程稳定的优点。本专利技术的有益效果为:1.本专利技术具有自学习,适应性好的特点,由于强化学习天生与环境交互学习的特点,本专利技术提供的智能水下机器人垂直面路径跟随的深度强化学习控制方法可以主动与环境进行交互,可以适应各种复杂海洋环境。2.本专利技术具有学习过程稳定,学习结果可扩展性好的特点。本专利技术提供的智能水下机器人垂直面路径跟随的深度强化学习控制方法通过使用分布式的方法,提供了更好,更稳定的学习信号;同时学习所得的控制策略在目标路径变化不是特别剧烈的情况下可以直接使用,无需再次训练,节省了时间,提高了效率。附图说明图1是本专利技术的总体结构图;图2是本专利技术动作网络和学习者结构中演员网络的示意图;图3是本专利技术学本文档来自技高网...

【技术保护点】
1.一种智能水下机器人垂直面路径跟随的深度强化学习控制方法,其特征是:步骤一,根据智能水下机器人的路径跟随控制要求,建立与代理人进行交互的智能水下机器人环境;步骤二,建立代理人集合;步骤三,建立经验缓存池;步骤四,建立学习者;步骤五,使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。

【技术特征摘要】
1.一种智能水下机器人垂直面路径跟随的深度强化学习控制方法,其特征是:步骤一,根据智能水下机器人的路径跟随控制要求,建立与代理人进行交互的智能水下机器人环境;步骤二,建立代理人集合;步骤三,建立经验缓存池;步骤四,建立学习者;步骤五,使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。2.根据权利要求1所述的智能水下机器人垂直面路径跟随的深度强化学习控制方法,其特征是:所述建立与代理人进行交互的智能水下机器人环境是将智能水下机器人的路径跟随控制过程建模成一个马尔可夫决策过程,确定马尔可夫决策过程的主要组成部分:动作空间、状态空间、观测空间、奖励函数。3.根据权利要求2所述的智能水下机器人垂直面路径跟随的深度强化学习控制方法,其特征是所述确定马尔可夫决策过程的主要组成部分具体包括:(1)确定动作空间动作空间表达式为F=[delS],其中delS表示智能水下机器人水平舵的舵角;(2)确定状态空间状态空间表达式为S=[w,q,z,theta],其中w表示智能水下机器人在随体坐标系下的升沉速度,q表示智能水下机器人在随体坐标系下的俯仰角速度,z表示智能水下机器人在大地坐标系下的深度,theta表示智能水下机器人在大地坐标系下的俯仰角;(3)确定观测空间观测空间是状态空间的函数:O=f(S),其中跟随直线路径为:O=[w,q,zdelta,cos(theta),sin(theta)],zdelta=z-zr,zr表示直线路径所在的深度;(4)确定奖励函数在强化学习中,代理的目的或目标是根据特殊信号形成的,称为奖励或奖励函数,从环境传递给代理人,用于评价智能水下机器人在前一时刻采取动作后导致产生的当前状态的效果:R(s,a)=R(s)+R(a)其中:R(s)=-(αww2+αqq2+αzzdelta2+αttheta2)R(a)=-(αa1delS2)其中αw、αq、αz、αt、αa1是权重系数。4.根据权利要求1所述的智能水下机器人垂直面路径跟随的深度强化学习控制方法,其特征是:所述建立代理人集合具体包括:(1)同时建立K个动作网络,K个动作网络同时与智能水下机器人环境进行交互来建立代理人集合;(2)代理人集合从学习者处接收网络参数用于代理人集合中动作网络的更新,代理人集合将动作网络与智能水下机器人环境进行交互得到的经验元祖传递到经验缓存池,单个经验元祖的表达式是:(oi,ai,R(s,a)i)。5.根据权利要求1所述的智能水下机器人垂直面路径跟随的深度强化学习控制方法,其特征是:所述建立经验缓存池具体包括:经验缓存池从代理人集合处接收代理人集合中是动作网络与智能水下机器人环境进行交互得到的经验元祖,经验缓存池将依据优先级采样得到的经验元祖传递到学习者,优先级采样的表达式为:其中...

【专利技术属性】
技术研发人员:李晔白德乾姜言清安力武皓微
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1