基于深度强化学习的无人机编队保持控制方法技术

技术编号:39001225 阅读:14 留言:0更新日期:2023-10-07 10:33
本发明专利技术公开了一种基于深度强化学习的无人机编队保持控制方法,属于智能控制和无人机技术的交叉领域,所述方法包括:建立无人机飞行动力学模型和运动学模型,并根据虚拟长机拓扑结构,设计无人机相对运动模型;设计无人机的增稳

【技术实现步骤摘要】
基于深度强化学习的无人机编队保持控制方法


[0001]本专利技术涉及智能控制和无人机技术的交叉领域,特别是指一种基于深度强化学习的无人机编队保持控制方法。

技术介绍

[0002]针对无人机编队保持航迹指令生成的传统方法,如PID(比例积分微分)算法,参数往往需要手动整定,且鲁棒性较差,其控制性能在面对复杂环境或剧烈扰动时往往会急剧下降甚至失效;模型预测控制等方法一般需要被控对象和扰动等环境要素的精确模型来进行控制律和制导律的设计,但是这些模型通常是非线性且极为复杂的,基于此,建立一个精准的控制模型往往较为困难,而且模型的鲁棒性也难以得到保证。在这种背景下,善于处理复杂随机性的深度强化学习方法受到了多方关注。
[0003]深度强化学习是机器学习领域的重要组成部分,是处理序贯决策问题的有力手段,目前被广泛应用于机器人、游戏、金融、交通等领域。使用深度强化学习训练往往需要建立其马尔科夫决策过程,其目标是使智能体在与训练场景的互动过程中,在累计奖励函数值的指导下,训练得到一种最佳策略,该策略使智能体具备根据状态空间变化合理选取动作的能力。在使用该算法进行训练时,能够主动在环境模型中设计较强的随机性,可以解决复杂随机环境中的决策控制问题,适用于无人机编队航迹指令生成问题的解决。

技术实现思路

[0004]本专利技术要解决的技术问题是提供一种基于深度强化学习的无人机编队保持控制方法,以提高无人机编队队形保持控制的智能性、鲁棒性、准确性。
[0005]为解决上述技术问题,本专利技术提供技术方案如下:
[0006]一种基于深度强化学习的无人机编队保持控制方法,包括:
[0007]步骤1:根据飞行力学原理,建立无人机飞行动力学模型和运动学模型,并根据虚拟长机拓扑结构,设计无人机相对运动模型;
[0008]步骤2:根据PID控制原理,设计无人机的增稳

姿态

航迹的PID串级控制器;
[0009]步骤3:设计每一个无人机的MAPPO智能体的马尔科夫决策过程,包括状态空间、动作空间、奖励函数和终止条件;
[0010]步骤4:设计适用于符合该马尔可夫决策模型的神经网络结构;
[0011]步骤5:对设计的MAPPO智能体进行训练,智能体的输入为状态空间,输出为无人机控制指令,PID串级控制器接收该控制指令进而操控无人机完成编队保持。
[0012]本专利技术具有以下有益效果:
[0013]本专利技术的基于深度强化学习的无人机编队保持控制方法,是将独立学习范式与近端策略优化算法相结合,进而处理多机编队(多智能体)问题。首先,根据飞行力学原理建立无人机单机的运动学和动力学方程并基于虚拟长机结构建立无人机编队相对运动模型;进一步,设计各无人机的PID串级控制器,使无人机能准确快速地跟踪指令;然后,根据MAPPO
算法设计编队队形保持过程的马尔科夫决策模型、神经网络结构和算法流程,使多无人机可以在风扰等复杂环境中保持编队,同时,将俯仰角速度等无人机关键状态量加入状态空间,使该方法的控制精度获得了极大的提高。本专利技术利用深度强化学习算法建立复杂环境与无人机指令之间的映射关系,提高了无人机编队队形保持控制的智能性、鲁棒性、准确性。
附图说明
[0014]图1为应用本专利技术方法的无人机编队系统的结构示意图;
[0015]图2为本专利技术中编队坐标系及无人机相对位置关系示意图;
[0016]图3为本专利技术中无人机飞行控制即PID串级控制器的结构示意图;
[0017]图4为本专利技术中神经网络结构示意图;
[0018]图5为本专利技术中编队系统训练框图;
[0019]图6为本专利技术中训练过程奖励曲线图;
[0020]图7为本专利技术中实例编队队形图;
[0021]图8为本专利技术中编队队形保持航迹图;
[0022]图9为本专利技术中编队队形保持误差曲线图;
[0023]图10为本专利技术中编队队形保持无人机V、γ、χ响应图。
具体实施方式
[0024]为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0025]本专利技术基于深度强化学习算法,利用强化学习技术的反复训练机制提升智能体的经验,利用深度神经网络拟合环境状态与指令输出之间的关系,从而使得智能体能够指导无人机进行编队保持飞行。
[0026]本专利技术提供一种基于深度强化学习的无人机编队保持控制方法,如图1

10所示,包括:
[0027]步骤1:根据飞行力学原理,建立无人机飞行动力学模型和运动学模型,并根据虚拟长机拓扑结构,设计无人机相对运动模型;
[0028]本步骤中,无人机的质心动力学方程可以为:
[0029][0030]以及转动动力学方程可以为:
[0031][0032]式中,m为无人机质量,g为当地重力加速度,Ix,Iy,Iz,Izx为无人机的惯性矩和惯性积;(u,v,w)为无人机速度V在机体轴上的投影,(p,q,r)为无人机角速度ω在机体轴上的
投影;θ和φ分别为无人机俯仰角和滚转角。(Tx,Ty,Tz)为无人机发动机推力,(X,Y,Z)为气动力,(L,M,N)为气动力矩。
[0033]本步骤中,将无人机的质心速度在地面坐标系上投影,得到无人机的质心运动学方程:
[0034][0035]和无人机绕质心的转动运动学方程:
[0036][0037]式中,ψ为偏航角。
[0038]为方便定位空间位置,作为一种可选的实施例,所述步骤1可以包括:
[0039]设计编队坐标系来描述无人机自身相对于虚拟长机的位置,以虚拟长机为坐标原点,建立编队坐标系O
f
x
f
y
f
z
f
,O
f
x
f
轴的正方向为虚拟长机的速度在水平面O
g
x
g
y
g
内的投影方向,O
f
z
f
轴垂直水平面向下,O
f
y
f
位于水平面内由右手定则确定,如图2所示;
[0040]图2中,坐标系O
g
x
g
y
g
z
g
为地面坐标系,用以定义无人机的速度V与航向(χ,γ),其中,γ为飞机地速矢量V与水平面O
g
x
g
y
g
之间的夹角,χ为飞机地速矢量V在水平面上的投影与O
g
x
g
轴的夹角;O
i
为无人机i(i=1,2,

,m)实际的位置,O
di
为无人机i的期望编队位置;各无人机的速度和航向为(V
i
,χ
i
,γ
i
),(x
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人机编队保持控制方法,其特征在于,包括:步骤1:根据飞行力学原理,建立无人机飞行动力学模型和运动学模型,并根据虚拟长机拓扑结构,设计无人机相对运动模型;步骤2:根据PID控制原理,设计无人机的增稳

姿态

航迹的PID串级控制器;步骤3:设计每一个无人机的MAPPO智能体的马尔科夫决策过程,包括状态空间、动作空间、奖励函数和终止条件;步骤4:设计适用于符合该马尔可夫决策模型的神经网络结构;步骤5:对设计的MAPPO智能体进行训练,智能体的输入为状态空间,输出为无人机控制指令,PID串级控制器接收该控制指令进而操控无人机完成编队保持。2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:设计编队坐标系来描述无人机自身相对于虚拟长机的位置,以虚拟长机为坐标原点,建立编队坐标系O
f
x
f
y
f
z
f
,O
f
x
f
呼轴的正方向为虚拟长机的速度在水平面O
g
x
g
y
g
内的投影方向,O
f
z
f
轴垂直水平面向下,O
f
y
f
位于水平面内由右手定则确定;坐标系O
g
x
g
y
g
z
g
为地面坐标系,用以定义无人机的速度V与航向(χ,γ),其中,γ为飞机地速矢量V与水平面O
g
x
g
y
g
之间的夹角,χ为飞机地速矢量V在水平面上的投影与O
g
x
g
轴的夹角;O
i
为无人机i实际的位置,O
di
为无人机i的期望编队位置;各无人机的速度和航向为(V
i
,χ
i
,γ
i
),(x
if
,y
if
,z
if
)为无人机i在编队坐标系下的相对位置坐标;理想编队队形表示为{(x
dif
,y
dif
,z
dif
),i=1,2,...,m},m为编队无人机总数。3.根据权利要求1所述的方法,其特征在于,所述步骤2中,PID串级控制器包括依次连接的航迹PID控制器、姿态角PID控制器、操纵舵面和无人机扰动线化运动模型,其中:所述航迹PID控制器的输入端用于接收制导指令,输出端用于输出姿态角指令至所述姿态角PID控制器;所述姿态角PID控制器的输出端用于输出舵面指令至所述操纵舵面;所述无人机扰动线化运动模型的输出端输出速度、位置信号且该速度、位置信号反馈至所述航迹PID控制器的输入端,所述无人机扰动线化运动模型还输出姿态角信号反馈至所述姿态角PID控制器的输入端,所述无人机扰动线化运动模型还输出姿态角角速度信号经增稳器反馈至所述操纵舵面的输入端。4.根据权利要求1所述的方法,其特征在于,所述步骤3中,状态空间S的表达式为:
式中,(x
eif
,y
eif
,z
eif
)为无人机i与期望位置的误差;为x
eif
的微分项,∫x
eif
为x
eif
的积分项,为y
eif
的微分项,∫y
eif
为y
eif
的积分项,为z
eif
的微分项,∫z
eif
为z
eif
的积分项,V

【专利技术属性】
技术研发人员:焦瑞豪王建岭王永波吴晗郝铭慧
申请(专利权)人:智洋创新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1