智能水下机器人垂直面路径跟随的深度强化学习控制方法技术

技术编号：22053944 阅读：34 留言：0更新日期：2019-09-07 14:49

本发明专利技术提供的是一种智能水下机器人垂直面路径跟随的深度强化学习控制方法。步骤一，根据智能水下机器人的路径跟随控制要求，建立与代理人进行交互的智能水下机器人环境；步骤二，建立代理人集合；步骤三，建立经验缓存池；步骤四，建立学习者；步骤五，使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。本发明专利技术针对智能水下机器人所处海洋环境复杂多变，传统控制方法无法与环境主动进行交互的现象，设计智能水下机器人垂直面路径跟随的深度强化学习控制方法。使用确定性策略梯度通过分布式的方法来完成智能水下机器人的路径跟随控制任务，具有自学习，精度高，适应性好，学习过程稳定的优点。

Deep Reinforcement Learning Control Method for Vertical Path Following of Intelligent Underwater Vehicle

全部详细技术资料下载

【技术实现步骤摘要】
智能水下机器人垂直面路径跟随的深度强化学习控制方法
本专利技术涉及的是一种水下航行器控制方法，具体地说是一种智能水下机器人垂直面路径跟随的深度强化学习控制方法。
技术介绍
随着海洋开发的不断深入，智能水下机器人由于其具有运动灵活、携带方便、可自主作业等特点已被广泛应用于海洋环境保护、海洋资源开发，其地位日益重要。此外通过准确控制智能水下机器人，使得一些极其危险的任务变得安全，例如探索海底石油，修复海底管道，以及追踪和记录易爆物的位置。传统的路径跟随控制方法诸如模糊逻辑控制、PID控制、S面控制需要人为的调整控制参数，控制效果依赖于人的经验，智能水下机器人不能主动的与环境进行交互。近年来，随着人工智能技术的快速发展，作为人工智能的重要内容之一，强化学习近年来取得了一系列的重大突破。在强化学习中，学习者不会被告知要采取哪些行动，而是必须通过尝试来发现哪些行动会产生最大的回报。行动不仅可以影响直接奖励，还可以影响下一个时刻的状态，并通过这种状态影响所有后续的奖励。
技术实现思路
本专利技术的目的在于提供一种具有自学习、精度高的特点，可以适应各种复杂海洋环境的智能水下机器人垂直面路径跟随的深度强化学习控制方法。本专利技术的目的是这样实现的：步骤一，根据智能水下机器人的路径跟随控制要求，建立与代理人进行交互的智能水下机器人环境；步骤二，建立代理人集合；步骤三，建立经验缓存池；步骤四，建立学习者；步骤五，使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。本专利技术还可以包括：1.所述建立与代理人进行交互的智能水下机器人环境是将智能水下机器人的路径跟随控制过程建模成一...

【技术保护点】
1.一种智能水下机器人垂直面路径跟随的深度强化学习控制方法，其特征是：步骤一，根据智能水下机器人的路径跟随控制要求，建立与代理人进行交互的智能水下机器人环境；步骤二，建立代理人集合；步骤三，建立经验缓存池；步骤四，建立学习者；步骤五，使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。

【技术特征摘要】
1.一种智能水下机器人垂直面路径跟随的深度强化学习控制方法，其特征是：步骤一，根据智能水下机器人的路径跟随控制要求，建立与代理人进行交互的智能水下机器人环境；步骤二，建立代理人集合；步骤三，建立经验缓存池；步骤四，建立学习者；步骤五，使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。2.根据权利要求1所述的智能水下机器人垂直面路径跟随的深度强化学习控制方法，其特征是：所述建立与代理人进行交互的智能水下机器人环境是将智能水下机器人的路径跟随控制过程建模成一个马尔可夫决策过程，确定马尔可夫决策过程的主要组成部分：动作空间、状态空间、观测空间、奖励函数。3.根据权利要求2所述的智能水下机器人垂直面路径跟随的深度强化学习控制方法，其特征是所述确定马尔可夫决策过程的主要组成部分具体包括：(1)确定动作空间动作空间表达式为F＝[delS]，其中delS表示智能水下机器人水平舵的舵角；(2)确定状态空间状态空间表达式为S＝[w,q,z,theta],其中w表示智能水下机器人在随体坐标系下的升沉速度，q表示智能水下机器人在随体坐标系下的俯仰角速度，z表示智能水下机器人在大地坐标系下的深度，theta表示智能水下机器人在大地坐标系下的俯仰角；(3)确定观测空间观测空间是状态空间的函数：O＝f(S)，其中跟随直线路径为：O＝[w,q,zdelta,cos(theta),sin(theta)]，zdelta＝z-zr,zr表示直线路径所在的深度；(4)确定奖励函数在强化学习中，代理的目的或目标是根据特殊信号形成的，称为奖励或奖励函数，从环境传递给代理人，用于评价智能水下机器人在前一时刻采取动作后导致产生的当前状态的效果:R(s,a)＝R(s)+R(a)其中：R(s)＝-(αww2+αqq2+αzzdelta2+αttheta2)R(a)＝-(αa1delS2)其中αw、αq、αz、αt、αa1是权重系数。4.根据权利要求1所述的智能水下机器人垂直面路径跟随的深度强化学习控制方法，其特征是：所述建立代理人集合具体包括：(1)同时建立K个动作网络，K个动作网络同时与智能水下机器人环境进行交互来建立代理人集合；(2)代理人集合从学习者处接收网络参数用于代理人集合中动作网络的更新，代理人集合将动作网络与智能水下机器人环境进行交互得到的经验元祖传递到经验缓存池，单个经验元祖的表达式是：(oi,ai,R(s,a)i)。5.根据权利要求1所述的智能水下机器人垂直面路径跟随的深度强化学习控制方法，其特征是：所述建立经验缓存池具体包括：经验缓存池从代理人集合处接收代理人集合中是动作网络与智能水下机器人环境进行交互得到的经验元祖，经验缓存池将依据优先级采样得到的经验元祖传递到学习者，优先级采样的表达式为：其中...

【专利技术属性】
技术研发人员：李晔，白德乾，姜言清，安力，武皓微，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人