【技术实现步骤摘要】
基于深度强化学习的无人机编队保持控制方法
[0001]本专利技术涉及智能控制和无人机技术的交叉领域,特别是指一种基于深度强化学习的无人机编队保持控制方法。
技术介绍
[0002]针对无人机编队保持航迹指令生成的传统方法,如PID(比例积分微分)算法,参数往往需要手动整定,且鲁棒性较差,其控制性能在面对复杂环境或剧烈扰动时往往会急剧下降甚至失效;模型预测控制等方法一般需要被控对象和扰动等环境要素的精确模型来进行控制律和制导律的设计,但是这些模型通常是非线性且极为复杂的,基于此,建立一个精准的控制模型往往较为困难,而且模型的鲁棒性也难以得到保证。在这种背景下,善于处理复杂随机性的深度强化学习方法受到了多方关注。
[0003]深度强化学习是机器学习领域的重要组成部分,是处理序贯决策问题的有力手段,目前被广泛应用于机器人、游戏、金融、交通等领域。使用深度强化学习训练往往需要建立其马尔科夫决策过程,其目标是使智能体在与训练场景的互动过程中,在累计奖励函数值的指导下,训练得到一种最佳策略,该策略使智能体具备根据状态空间变化合理选取动作的能力。在使用该算法进行训练时,能够主动在环境模型中设计较强的随机性,可以解决复杂随机环境中的决策控制问题,适用于无人机编队航迹指令生成问题的解决。
技术实现思路
[0004]本专利技术要解决的技术问题是提供一种基于深度强化学习的无人机编队保持控制方法,以提高无人机编队队形保持控制的智能性、鲁棒性、准确性。
[0005]为解决上述技术问题,本专利技术提供技术方案如下: ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于深度强化学习的无人机编队保持控制方法,其特征在于,包括:步骤1:根据飞行力学原理,建立无人机飞行动力学模型和运动学模型,并根据虚拟长机拓扑结构,设计无人机相对运动模型;步骤2:根据PID控制原理,设计无人机的增稳
‑
姿态
‑
航迹的PID串级控制器;步骤3:设计每一个无人机的MAPPO智能体的马尔科夫决策过程,包括状态空间、动作空间、奖励函数和终止条件;步骤4:设计适用于符合该马尔可夫决策模型的神经网络结构;步骤5:对设计的MAPPO智能体进行训练,智能体的输入为状态空间,输出为无人机控制指令,PID串级控制器接收该控制指令进而操控无人机完成编队保持。2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:设计编队坐标系来描述无人机自身相对于虚拟长机的位置,以虚拟长机为坐标原点,建立编队坐标系O
f
x
f
y
f
z
f
,O
f
x
f
呼轴的正方向为虚拟长机的速度在水平面O
g
x
g
y
g
内的投影方向,O
f
z
f
轴垂直水平面向下,O
f
y
f
位于水平面内由右手定则确定;坐标系O
g
x
g
y
g
z
g
为地面坐标系,用以定义无人机的速度V与航向(χ,γ),其中,γ为飞机地速矢量V与水平面O
g
x
g
y
g
之间的夹角,χ为飞机地速矢量V在水平面上的投影与O
g
x
g
轴的夹角;O
i
为无人机i实际的位置,O
di
为无人机i的期望编队位置;各无人机的速度和航向为(V
i
,χ
i
,γ
i
),(x
if
,y
if
,z
if
)为无人机i在编队坐标系下的相对位置坐标;理想编队队形表示为{(x
dif
,y
dif
,z
dif
),i=1,2,...,m},m为编队无人机总数。3.根据权利要求1所述的方法,其特征在于,所述步骤2中,PID串级控制器包括依次连接的航迹PID控制器、姿态角PID控制器、操纵舵面和无人机扰动线化运动模型,其中:所述航迹PID控制器的输入端用于接收制导指令,输出端用于输出姿态角指令至所述姿态角PID控制器;所述姿态角PID控制器的输出端用于输出舵面指令至所述操纵舵面;所述无人机扰动线化运动模型的输出端输出速度、位置信号且该速度、位置信号反馈至所述航迹PID控制器的输入端,所述无人机扰动线化运动模型还输出姿态角信号反馈至所述姿态角PID控制器的输入端,所述无人机扰动线化运动模型还输出姿态角角速度信号经增稳器反馈至所述操纵舵面的输入端。4.根据权利要求1所述的方法,其特征在于,所述步骤3中,状态空间S的表达式为:
式中,(x
eif
,y
eif
,z
eif
)为无人机i与期望位置的误差;为x
eif
的微分项,∫x
eif
为x
eif
的积分项,为y
eif
的微分项,∫y
eif
为y
eif
的积分项,为z
eif
的微分项,∫z
eif
为z
eif
的积分项,V
技术研发人员:焦瑞豪,王建岭,王永波,吴晗,郝铭慧,
申请(专利权)人:智洋创新科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。