The invention proposes a fixed depth control method for underwater autonomous robot based on reinforcement learning, which belongs to the control field of underwater robot. The invention firstly construct the Markoff decision process model of fixed depth control of underwater autonomous robot, are state variables, fixed depth control of underwater autonomous robot control variable transfer model, the expression step loss function; establish decision network and evaluation network; through reinforcement learning, the autonomous underwater robot in fixed depth control training in every step of updating the decision network and evaluation network, until convergence; for the final decision network fixed depth control. The invention realizes the fixed depth control of underwater autonomous robot under the condition that the dynamic model of underwater autonomous robot is completely unknown, and has high practical value.
【技术实现步骤摘要】
一种基于强化学习的水下自主机器人固定深度控制方法
本专利技术属于水下机器人控制领域,具体涉及一种基于强化学习的水下自主机器人(AUV)固定深度控制方法。
技术介绍
随着科技的发展以及陆地资源的逐渐匮乏,对海洋勘探研究的需求日益增长。水下自主机器人(AUV)作为一种自主控制的智能机器人,具有灵活、安全可靠、回收便利等优点,广泛应用于多种海洋勘探场景,比如海底测绘、羽状流追踪、矿产资源勘探等等。因此,AUV的控制问题在控制领域引起了越来越多学者们的兴趣与重视,相关的技术与研究在近几年也取得了很多进展与突破。传统的AUV控制策略研究主要集中在基于AUV模型的控制器设计,这里AUV模型表示由AUV的动力学与运动学方程所构成的模型。这些研究通常假定AUV的运动服从一系列的运动学与动力学物理方程,方程中的物理学参数通过大量的水下实验测定,在AUV模型已知的条件下设计精准的控制策略。T.Prestero基于“REMUS”型号AUV建立了一套六自由度的运动学与动力学方程,在假定AUV倾斜角度很小的情形下,将模型线性化并设计了一个比例-积分-微分控制器来控制AUV的深度。这种倾角假 ...
【技术保护点】
一种基于强化学习的水下自主机器人固定深度控制方法,其特征在于,包括以下步骤:1)构建水下自主机器人AUV固定深度控制的马尔科夫决策过程模型;马尔科夫决策过程模型包括四个组成部分:状态变量,控制变量,转移模型,一步损失函数;具体步骤如下:1‑1)确定状态变量;令z表示AUV在惯性坐标系下的深度,
【技术特征摘要】
1.一种基于强化学习的水下自主机器人固定深度控制方法,其特征在于,包括以下步骤:1)构建水下自主机器人AUV固定深度控制的马尔科夫决策过程模型;马尔科夫决策过程模型包括四个组成部分:状态变量,控制变量,转移模型,一步损失函数;具体步骤如下:1-1)确定状态变量;令z表示AUV在惯性坐标系下的深度,表示惯性坐标系下AUV前进方向与x轴夹角,w表示AUV在自身坐标系下纵向的速度,q表示AUV在自身坐标系下绕v轴转动的角速度;设AUV目标深度在惯性坐标系下为zr,则AUV所处深度与目标深度之间的相对深度为z-zr;则AUV状态变量表达式为:1-2)确定控制变量;控制变量表达式为u=[τ1,τ2]T;其中,τ1表示施加在AUV纵向上的推力,τ2表示驱使AUV绕y轴转动的扭矩;1-3)确定转移模型;转移模型为一个时间离散的黑箱函数,表达式如下:xt+1=f(xt,ut,Δt)其中Δt表示转移模型中存在的t时刻不确定性的扰动;该转移模型表示在给定当前t时刻状态变量与控制变量,返回下一时刻的状态变量;1-4)确定一步损失函数;一步损失函数用于评价在AUV在某个时刻状态下执行控制变量的效果,表达式如下:其中,k表示第k个时刻,ρ1、ρ2、ρ3、ρ4、λ1、λ2分别表示各项的权重系数;保证AUV到达指定深度的同时前进方向与x轴一致,使AUV的纵向速度与转动角速度尽可能小,λ1(τ1,k-τ1,k-1)2+λ2(τ2,k-τ2,k-1)2防止控制变量出现震荡的现象;1-5)确定目标函数;AUV固定深度控制目标为使得AUV到达并维持在指定的深度,即最小化期望累计损失函数,因此马尔科夫决策过程模型的目标函数表达式如下:s.t.xk+1=f(xk,uk,Δk)k=1,...,∞其中,uk≥1表示控制变量的输入序列{u1,u2,...},Δk≥1表示扰动序列{Δ1,Δ2,...},γ表示对未来损失的权重的衰减因子,0<γ<1;2)构建评价网络与策略网络;2-1)构建评价网络;评价网络的输入为状态变量,输出为控制变量,函数表达式如下:u=μ(x)2-2)构建策略网络;策略网络的输入为状态变量和控制变量,输出为损失量,函数表达式如下:该函数表示在给定初始状态变量与初始控制变量,按照控制变量μ进行控制取得的长期损失函数;3)采用确定性策略梯度进行水下自主机器人固定深度控制;具体步骤如下:3-1)参数设置;令最大迭代次数为M=500,每次迭代的最大实验步数T=1000,经验回放抽取的训练集大小N=64,目标神经网络的追踪比率τ=0.9,评价网络与策略网络的学习率分别为αω=0.01和αθ=0.001,折现因子为γ=0.99;3-2)对评价网络和策略网络分别初始化;令ω和θ分别表示评价网络和策略网络的权重参数,则评价网络与策略网络的参数化表达式分别为Q(x,u|ω)...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。