当前位置: 首页 > 专利查询>清华大学专利>正文

基于深度强化学习的自主水下航行器轨迹跟踪控制方法技术

技术编号:19423883 阅读:777 留言:0更新日期:2018-11-14 10:09
本发明专利技术提出了一种基于深度强化学习的自主水下航行器轨迹跟踪控制方法,属于深度强化学习和智能控制领域。首先定义AUV轨迹跟踪控制问题;然后建立AUV轨迹跟踪问题的马尔科夫决策过程模型;接着构建混合策略‑评价网络,该网络由多个策略网络和评价网络构成;最后由构建的混合策略‑评价网络求解AUV轨迹跟踪控制的目标策略,对于多个评价网络,通过定义期望贝尔曼绝对误差来评估每个评价网络的性能,在每个时间步只更新性能最差的一个评价网络,对于多个策略网络,在每个时间步随机选择一个策略网络,并采用确定性策略梯度进行更新,最终学习到的策略为所有策略网络的均值。本发明专利技术不易受到恶劣AUV历史跟踪轨迹的影响,精度高。

【技术实现步骤摘要】
基于深度强化学习的自主水下航行器轨迹跟踪控制方法
本专利技术属于深度强化学习和智能控制领域,涉及一种基于深度强化学习的自主水下航行器(AUV)轨迹跟踪控制方法。
技术介绍
深海海底科学的发展高度依赖于深海探测技术和装备,由于深海环境复杂、条件极端,目前主要采用深海作业型自主水下航行器代替或辅助人对深海进行探测、观察和采样。而针对海洋资源探索、海底调查和海洋测绘等人类无法到达现场操作的任务场景,保证AUV水下运动的自主性和可控性是一项最基本且重要的功能要求,是实现各项复杂作业任务的前提。然而,AUV的许多离岸应用(例如轨迹跟踪控制、目标跟踪控制等)极具挑战性,这种挑战性主要由AUV系统以下三方面的特性导致。第一,AUV作为一种多输入多输出系统,其动力学和运动学模型(以下简称模型)复杂,具有高度非线性、强耦合、存在输入或状态约束和时变等特点;第二,模型参数或水动力环境存在不确定性,导致AUV系统建模较为困难;第三,当前大部分AUV属于欠驱动系统,即自由度大于独立执行器的数量(各独立执行器分别对应一个自由度)。通常,通过数学物理机理推导、数值模拟和实物实验相结合的方法来确定AUV的模型及参数,并合理刻画模型中的不确定部分。复杂的模型导致AUV的控制问题也非常复杂。而且,随着AUV应用场景的不断扩展,人们对其运动控制的精度、稳定性都提出更高的要求,如何提高AUV在各种运动场景下的控制效果已成了重要的研究方向。在过去的几十年中,针对轨迹跟踪、路径点跟踪、路径规划和编队控制等不同应用场景,研究者们设计了各种AUV运动控制方法并验证了其有效性。其中具有代表性的是Refsnes等人提出的基于模型的输出反馈控制方法,该控制方法采用了两个解耦的系统模型:一个用于刻画海流负载的三自由度海流诱导船体模型和一个用于描述系统动态的五自由度模型。另外,Healey等人设计了一种基于状态反馈的跟踪控制方法,该控制方法采用固定的前向运动速度并对系统模型进行线性化处理,同时该控制方法采用了三个解耦的模型:纵荡模型、水平导向模型(横荡和艏摇)和垂向模型(垂荡和纵摇)。然而,这些方法都对系统模型进行了解耦或线性化处理,因此很难满足AUV在特定应用场景下的高精度控制要求。由于上述经典运动控制方法的局限性以及强化学习强大的自学习能力,近几年,研究者们对以强化学习为代表的智能控制方法表现出了极大的研究兴趣。而各种基于强化学习技术(例如Q学习、直接策略搜索、策略-评价网络和自适应强化学习)的智能控制方法也是不断地被提出并成功应用到不同的复杂应用场景中,如机器人运动控制、无人机飞行控制、高超音速飞行器跟踪控制以及道路信号灯控制等。基于强化学习的控制方法的核心思想是在无先验知识的前提下实现控制系统的性能优化。对于AUV系统,不少研究者已经设计出各种基于强化学习的控制方法并实际验证了其可行性。针对自主水下缆线跟踪控制问题,EI-Fakdi等人采用直接策略搜索技术来学习状态/动作映射关系,但是该方法仅适用于状态和动作空间都是离散的情况;而对于连续的动作空间,Paula等人采用径向基网络来近似策略函数,然而由于径向基网络的函数近似能力较弱,该控制方法无法保证较高的跟踪控制精度。近年来,随着批学习、经验回放和批正则化等深度神经网络(DNN)训练技术的发展,深度强化学习在机器人运动控制、自主地面车辆运动控制、四旋翼控制和自动驾驶等复杂任务中表现出了优异性能。尤其是近期提出的深度Q网络(DQN)在许多极具挑战性的任务中都表现出人类水平的控制精度。然而DQN不能处理同时具有高维状态空间和连续动作空间的问题。在DQN的基础上,深度确定性策略梯度(DDPG)算法被进一步提出并实现了连续控制。然而DDPG使用目标评价网络来估计评价网络的目标值,使得评价网络不能有效地评价由策略网络学习到的策略,且学习到的动作值函数存在较大的方差,因此当DDPG应用于AUV轨迹跟踪控制问题时,无法满足较高的跟踪控制精度和稳定学习的要求。
技术实现思路
本专利技术的目的是提出一种基于深度强化学习的AUV轨迹跟踪控制方法,该方法采用一种混合策略-评价网络结构,并采用多个准Q学习和确定性策略梯度来分别训练评价网络和策略网络,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的AUV轨迹跟踪控制和稳定学习。为了实现上述目的,本专利技术采用如下技术方案:一种基于深度强化学习的自主水下航行器轨迹跟踪控制方法,该方法包括以下步骤:1)定义自主水下航行器AUV轨迹跟踪控制问题定义AUV轨迹跟踪控制问题包括四个部分:确定AUV系统输入、确定AUV系统输出、定义轨迹跟踪控制误差和建立AUV轨迹跟踪控制目标;具体步骤如下:1-1)确定AUV系统输入令AUV系统输入向量为τk=[ξk,δk]T,其中ξk、δk分别为AUV的螺旋桨推力和舵角,下标k表示第k个时间步;ξk、δk的取值范围分别为和分别为最大的螺旋桨推力和最大舵角;1-2)确定AUV系统输出令AUV系统输出向量为ηk=[xk,yk,ψk]T,其中xk、yk分别为第k个时间步AUV在惯性坐标系I-XYZ下沿X、Y轴的坐标,ψk为第k个时间步AUV前进方向与X轴的夹角;1-3)定义轨迹跟踪控制误差根据AUV的行驶路径选取参考轨迹定义第k个时间步的AUV轨迹跟踪控制误差为:1-4)建立AUV轨迹跟踪控制目标对于步骤1-3)中的参考轨迹dk,选择如下形式的目标函数:其中,γ是折扣因子,H为权重矩阵;建立AUV轨迹跟踪控制的目标为找到一个最优系统输入序列τ*使得初始时刻的目标函数P0(τ)最小,计算公式如下:2)建立AUV轨迹跟踪问题的马尔科夫决策过程模型对步骤1)中的AUV轨迹跟踪问题进行马尔科夫决策过程建模,具体步骤如下:2-1)定义状态向量定义AUV系统的速度向量为φk=[uk,vk,χk]T,其中uk、vk分别为第k个时间步AUV沿前进方向、垂直于前进方向的线速度,χk为第k个时间步AUV环绕前进方向的角速度;根据步骤1-2)确定的AUV系统输出向量ηk和步骤1-3)定义的参考轨迹,定义第k个时间步的状态向量如下:2-2)定义动作向量定义第k个时间步的动作向量为该时间步的AUV系统输入向量,即ak=τk;2-3)定义奖励函数第k个时间步的奖励函数用于刻画在状态sk采取动作ak的执行效果,根据步骤1-3)定义的轨迹跟踪控制误差ek和步骤2-2)定义的动作向量ak,定义第k个时间步的AUV奖励函数如下:2-4)将步骤1-4)建立的AUV轨迹跟踪控制的目标τ*转换为强化学习框架下的AUV轨迹跟踪控制目标定义策略π为在某一状态下选择各个可能动作的概率,则定义动作值函数如下:其中,表示对奖励函数、状态和动作的期望值;K为最大时间步;该动作值函数用于描述在当前及之后所有状态下均采取策略π时的期望累计折扣奖励,故在强化学习框架下,AUV轨迹跟踪控制目标是通过与AUV所处环境的交互来学习一个最优目标策略π*,使得初始时刻的动作值最大,计算公式如下:其中,p(s0)为初始状态s0的分布;a0为初始动作向量;将步骤1-4)建立的AUV轨迹跟踪控制的目标τ*的求解转换为π*的求解;2-5)简化强化学习框架下的AUV轨迹跟踪控制目标通过如下迭代本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的自主水下航行器轨迹跟踪控制方法,其特征在于,该方法包括以下步骤:1)定义自主水下航行器AUV轨迹跟踪控制问题定义AUV轨迹跟踪控制问题包括四个部分:确定AUV系统输入、确定AUV系统输出、定义轨迹跟踪控制误差和建立AUV轨迹跟踪控制目标;具体步骤如下:1‑1)确定AUV系统输入令AUV系统输入向量为τk=[ξk,δk]

【技术特征摘要】
1.一种基于深度强化学习的自主水下航行器轨迹跟踪控制方法,其特征在于,该方法包括以下步骤:1)定义自主水下航行器AUV轨迹跟踪控制问题定义AUV轨迹跟踪控制问题包括四个部分:确定AUV系统输入、确定AUV系统输出、定义轨迹跟踪控制误差和建立AUV轨迹跟踪控制目标;具体步骤如下:1-1)确定AUV系统输入令AUV系统输入向量为τk=[ξk,δk]T,其中ξk、δk分别为AUV的螺旋桨推力和舵角,下标k表示第k个时间步;ξk、δk的取值范围分别为和分别为最大的螺旋桨推力和最大舵角;1-2)确定AUV系统输出令AUV系统输出向量为ηk=[xk,yk,ψk]T,其中xk、yk分别为第k个时间步AUV在惯性坐标系I-XYZ下沿X、Y轴的坐标,ψk为第k个时间步AUV前进方向与X轴的夹角;1-3)定义轨迹跟踪控制误差根据AUV的行驶路径选取参考轨迹定义第k个时间步的AUV轨迹跟踪控制误差为:1-4)建立AUV轨迹跟踪控制目标对于步骤1-3)中的参考轨迹dk,选择如下形式的目标函数:其中,γ是折扣因子,H为权重矩阵;建立AUV轨迹跟踪控制的目标为找到一个最优系统输入序列τ*使得初始时刻的目标函数P0(τ)最小,计算公式如下:2)建立AUV轨迹跟踪问题的马尔科夫决策过程模型对步骤1)中的AUV轨迹跟踪问题进行马尔科夫决策过程建模,具体步骤如下:2-1)定义状态向量定义AUV系统的速度向量为φk=[uk,vk,χk]T,其中uk、vk分别为第k个时间步AUV沿前进方向、垂直于前进方向的线速度,χk为第k个时间步AUV环绕前进方向的角速度;根据步骤1-2)确定的AUV系统输出向量ηk和步骤1-3)定义的参考轨迹,定义第k个时间步的状态向量如下:2-2)定义动作向量定义第k个时间步的动作向量为该时间步的AUV系统输入向量,即ak=τk;2-3)定义奖励函数第k个时间步的奖励函数用于刻画在状态sk采取动作ak的执行效果,根据步骤1-3)定义的轨迹跟踪控制误差ek和步骤2-2)定义的动作向量ak,定义第k个时间步的AUV奖励函数如下:2-4)将步骤1-4)建立的AUV轨迹跟踪控制的目标τ*转换为强化学习框架下的AUV轨迹跟踪控制目标定义策略π为在某一状态下选择各个可能动作的概率,则定义动作值函数如下:其中,表示对奖励函数、状态和动作的期望值;K为最大时间步;该动作值函数用于描述在当前及之后所有状态下均采取策略π时的期望累计折扣奖励,故在强化学习框架下,AUV轨迹跟踪控制目标是通过与AUV所处环境的交互来学习一个最优目标策略π*,使得初始时刻的动作值最大,计算公式如下:其中,p(s0)为初始状态s0的分布;a0为初始动作向量;将步骤1-4)建立的AUV轨迹跟踪控制的目标τ*的求解转换为π*的求解;2-5)简化强化学习框架下的AUV轨迹跟踪控制目标通过如下迭代贝尔曼方程来求解步骤2-4)中的动作值函数:设策略π是确定性的,即从AUV的状态向量空间到AUV的动作向量空间是一一映射的关系,并记为μ,则将上述迭代贝尔曼方程简化为:对于确定性的策略μ,将步骤2-4)中的最优目标策略π*简化为确定性最优目标策略μ*:3)构建混合策略-评价网络通过构建混合策略-评价网络来分别估计确定性最优目标策略μ*和对应的最优动作值函数构建混合策略-评价网络包括三部分:构建策略网络、构建评价网络和确定目标策略,具体步骤如下:3-1)构建策略网络混合策略-评价网络结构通过构建n个策略网络来估计确定性最优目标策略μ*;其中,θp为第p个策略网络的权重参数,p=1,…,n;各策略网络均分别使用一个全连接的深度神经网络来实现,各策略网络均分别包含一个输入层、两个隐藏层和一个输出层;各策略网络的输入为状态向量sk,各策略网络的输出为动作向量ak;3-2)构建评价网...

【专利技术属性】
技术研发人员:宋士吉石文杰
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1