【技术实现步骤摘要】
一种基于深度强化学习的飞行器航线跟踪方法
本专利技术涉及一种基于深度强化学习的飞行器航线跟踪方法,属于机器人智能控制领域。
技术介绍
飞行器的自动驾驶系统往往包含两个控制环路:外环根据指定航线产生期望的姿态;内环控制飞行器跟踪外环产生的指令。与外环控制器不同,内环控制器往往只对特定的飞行器、特定的飞行任务有效。目前大多数的飞行器自动驾驶系统都采用经典的PID控制。尽管PID控制足以完成大多数的控制任务,但是其在动态环境中的表现差强人意,比如:存在风扰、载荷变化、电压骤降等。飞行器的航线跟踪控制问题是一个非常具有挑战性的研究领域,已经发展了数十年,但大多数研究仍停留在仿真阶段,极少有能投入实际应用的控制方法。根据采用的算法种类,目前机器人跟踪问题的控制算法主要包括六大类:PID(proportionintegrationdifferentiation)控制、模糊控制、自适应控制、滑模控制、反步控制和神经网络控制。PID是一种较为传统的控制方法,在早期的简单机器人控制中被大量使用。但PID控制器需要根据控制的模型 ...
【技术保护点】
1.一种基于深度强化学习的飞行器航线跟踪方法,其特征在于,包括以下步骤:/n(1)构建一个用于飞行器航线跟踪的马尔科夫模型,包括以下步骤:/n(1-1)确定马尔科夫模型的状态变量:/n用(x,y,z)表示飞行器在惯性坐标系下的水平面坐标x,y和高度z,用
【技术特征摘要】
1.一种基于深度强化学习的飞行器航线跟踪方法,其特征在于,包括以下步骤:
(1)构建一个用于飞行器航线跟踪的马尔科夫模型,包括以下步骤:
(1-1)确定马尔科夫模型的状态变量:
用(x,y,z)表示飞行器在惯性坐标系下的水平面坐标x,y和高度z,用表示飞行器在惯性坐标系下的航向角、俯仰角和横滚角,用(p,q,r)表示飞行器在本体坐标系下三轴线速度,(u,v,w)表示飞行器在本体坐标系下的三轴角速度;
设飞行器的目标高度在惯性坐标系下为zr,则飞行器所处高度z与目标高度之间的相对高度为z-zr,设飞行器目标航向在惯性坐标系下为则飞行器当前航向角与目标航向角之间的相对误差为
则飞行器的马尔科夫模型的状态变量s为:
其中,β表示飞行器的侧滑角,侧滑角是飞行器飞行速度方向与其纵向对称平面之间的夹角,上标T表示矩阵转置;
(1-2)确定马尔科夫模型的控制变量:
设定飞行器副翼的舵量τ1、飞行器升降舵的舵量τ2和飞行器方向舵的舵量τ3,得到马尔科夫模型的控制变量u,u=[τ1,τ2,τ3]T;
(1-3)确定马尔科夫模型的转移模型,表达式为:sk+1=f(sk,uk),
其中,s为飞行器状态变量,k为飞行器状态采样时刻,该转移模型为一个时间离散的黑箱函数,表示在当前采样时刻k的状态变量sk和控制变量uk与下一采样时刻的状态变量sk+1的关系;
(1-4)确定马尔科夫模型的一步损失函数,表达式为:;
其中,k表示采样时刻,ρ1、ρ2、ρ3、ρ4、λ1、λ2、λ3分别表示相应各项的权重系数,上述权重系数均大于零,其中的项用于保证飞行器到达指定高度和指定前进方向,用于使飞行器横滚角和侧滑角为零,λ1(τ1,k-τ1,k-1)2+λ2(τ2,k-τ2,k-1)2+λ3(τ3,k-τ3,k-1)2用于防止控制变量出现震荡的现象,一步损失函数用于评价在飞行在某个时刻状态下执行控制变量的效果;
(1-5)确定飞行器航线跟踪的目标函数如下:
满足:sk+1=f(sk,uk)k=1,...,∞
其中,uk≥1表示步骤(1-2)的控制变量u的输入序列{u1,u2,...},γ表示对未来损失的权衰减因子,0<γ<1,表示数学期望;
(2)构建基于深度强化学习的评价网络与策略网络,包括以下步骤:
(2-1)构建一个策略网络:
策略网络的输入为状态变量s,策略网络的输出为控制变量u,策略网络表达式如下:
u=μ(s)
(2-2)构建一个评价网络:
评价网络的输入为状态变量s和控制变量u,评价网络的输出为累计损失量Qμ(s,u),评价网络的表达式如下:
其中,t为求和变量,表示数学期望;
(3)采用确定性策略梯度方法,对飞行器轨迹跟踪进行控制,具体步骤如下:
(3-1)设定最大迭代次数为M,每次迭代的最大实验步数为T,设定一个训练集,训练集大小为N,设定目标神经网络的追踪比率为τ,设定策略网络滞后时间为D,设定评价网络与策略网络的学习率分别为αω和αω=0.01,设定一个对未来损失权重...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。