基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法技术

技术编号:31766942 阅读:14 留言:0更新日期:2022-01-05 16:52
本发明专利技术公开一种基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法。步骤是:1)构建四旋翼动力学模型,结合起飞悬停的任务要求搭建环境;2)完善任务环境,加入两种类型的风场模型;3)设置动作空间和状态空间,制定环境规则和状态边界值;4)优化PPO算法;基于维度裁剪修改目标函数、提出额外损失来解决零梯度问题;5)探索分布式奖励值信号;对分层的奖惩函数给予相应的权值;6)设计神经网络更新控制策略;使用MLP结构,包含价值神经网络和策略神经网络;7)使用基于维度裁剪的PPO算法训练无人机控制策略。本发明专利技术优化了强化学习PPO算法,用于训练在风场环境下四旋翼无人机的控制策略,以达到起飞悬停的姿态轨迹控制要求。飞悬停的姿态轨迹控制要求。飞悬停的姿态轨迹控制要求。

【技术实现步骤摘要】
基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法


[0001]本专利技术属于四旋翼无人机的智能控制
,尤其涉及一种基于维度裁剪的近端策略优化算法的无人机姿态轨迹控制方法。

技术介绍

[0002]近年来,无人机被广泛应用于农业植保、公安、军事、消防应急等领域。四旋翼是典型的欠驱动非线性强耦合系统,其姿态控制和轨迹控制一直是研究的热点之一。但是,影响四旋翼飞行器的因素很多,如环境干扰、飞行时电机快速旋转产生的陀螺扭矩、空气阻力干扰、旋翼质量分布不均等。这种不确定性使得对四旋翼飞行器进行精确建模非常困难。因此,依赖精确建模的传统控制算法难以满足控制要求,探索一种能够将环境与可变动态适应性相结合的方法是非常必要的。在四旋翼控制方法研究中,根据预设的性能范围,传统控制方法难以快速收敛控制系统的跟踪误差。强化学习作为一种有效的无模型方法并应用于四旋翼飞行器以实现四旋翼飞行器系统的优化控制。利用神经网络开发智能飞行控制系统已逐渐成为一个非常热门的研究领域。
[0003]强化学习算法可以在接近现实世界复杂性的情况下取得成功。专利号CN 111460650 A的专利采用了一种基于深度强化学习的无人机端到端控制方法,来完成无人机的自主着陆任务,该专利技术用到的Actor

Critic算法虽然在应对不同阶段中导航的高端控制策略上优于DQN等值函数强化学习算法,但在训练控制策略时,Actor网络的策略更新还是过于依赖Critic网络给出的优势值,样本采样率较低。专利号CN 108319286 A的专利采用一体化控制器来取代传统的内外环控制器,提供了一种基于近端策略优化算法的无人机目标跟踪控制方法,其仿真环境仅考虑在室内无干扰的情况下进行,这并不足以验证PPO算法能否有效的应用于真实情况下的无人机飞行。专利号CN 112650058 A的专利提出了一种基于强化学习四旋翼无人机轨迹控制方法,其设置的控制器回报函数过于简单,不利于四旋翼控制策略的探索。专利号CN 110488872 A的专利一种基于深度强化学习的无人机实时路径规划方法,利用双重Q网络完成无人机的实施路径规划,但其设置的无人机动作空间集太少,仅8个方向(前进,左转45
°
,左转90
°
,左转135
°
,后退,右转135
°
,右转90
°
,右转45
°
),这使得在未知的干扰环境下(如随机风场、磁场等)四旋翼不能够快速收敛到稳定状态。
[0004]近端策略优化算法使用裁剪目标函数绑定当前策略的策略更新,实现稳定学习。当迭代从第i次开始时,策略π
θi
生成当前样本批次B
i
={(s
i,0
,a
i,0
,r
i,0
),

,(s
i,N
‑1,a
i,N
‑1,r
i,N
‑1)},长度为N。然后策略π
θ
根据在B
i
中采样的多个小批量完成更新。由于生成Bi的策略π
θi
与策略更新的目标策略π
θ
之间存在差异,PPO算法根据重要性采样(IS)权重r
i
校准策略π
θi
与目标策略π
θ
之间的统计差异。
[0005]此外,在“Schulman,J.,Levine,S.,Abbeel,P.,Jordan,M.,and Moritz,P.Trust region policy optimization.In Proceedings of the 32nd International Conference on Machine Learning(ICML

15),pp.1889

1897,2015a.”中,为了限制策略更新量以保证学习的稳定性,PPO降低了IS权重。因此,PPO的目标函数由下式给出:
[0006][0007]其中其中是的估计值,B
i
在每个小批量中随机采样M个样本。
[0008]PPO通过裁剪目标函数而不是使用KL散度约束来限制策略更新次数稳定更新。好处是这种裁剪机制可以防止r
t
变得过小或过大,尤其是对于很多复杂的环境,稳定的更新范围更有利于更快更高效的训练。当简化裁剪后的目标函数时,可以得到:
[0009]当且r
t
<1

ε时,
[0010]当且r
t
>1+ε时,
[0011]在上述情况下,是常数并且梯度消失。这种零梯度的问题,尤其是在高动作维度的任务中,是非常严重的。所以正是因为PPO直接裁剪损失函数,PPO生成的零梯度样本极大地影响了样本效率,从而也影响了复杂四旋翼系统中的学习效率和跟踪精度。本专利技术提出的基于维度裁剪的PPO强化学习算法,在复杂的高维度环境下能够有效增加样本效率,在风切变和离散突风的风场环境下进行测试,也有效的验证了控制策略的抗干扰能力。

技术实现思路

[0012]本专利技术的目的是提出一种基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,用于四旋翼飞行器的姿态轨迹控制。不仅有效解决了PPO算法的零梯度问题,可以在保持良好采样效率的同时快速收敛,而且在控制精度上也有更好的表现。
[0013]本专利技术解决其技术问题所采用的技术方案如下。
[0014]一种基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,包括以下步骤:
[0015]S1:搭建四旋翼任务环境;
[0016]无人机控制系统为欠驱动系统,四输入六输出。建立固定在四旋翼上的惯性坐标系和体坐标系来描述四旋翼的姿态和位置。两个坐标系有如下转换关系:
[0017][0018]其中φ,θ,ψ为四旋翼的三个欧拉角,S{
·
}和C{
·
}表示为sin(
·
)and cos(
·
)。
[0019]四旋翼的非线性动力学方程如下:
[0020]设定任务要求为控制四旋翼从[0,0,0]的
起始点起飞至[5,5,5]的目标点并稳定的悬停在目标点。
[0021]S2:对四旋翼无人机任务环境进行完善,加入风切变和离散突风两种风场模型;其中风切变的模型为其中,V
pw
为产生的风切变风速值,V
w0
为摩擦速度,由空气密度ρ和地面剪应力τ0决定,表达式为:k为Karman常数,H为四旋翼的飞行高度,一般取0.4,H0为粗糙度高度,一般取为0.05。离散突风的模型为其中V
wm
为突风的峰值,d
m
为突风尺度范围,x为离突风中心的距离。
[0022]S3:根据任务环境中不同的姿态、轨迹控制要求来设置相应的动作空间和状态空间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,包括以下步骤:1)搭建四旋翼任务环境;根据无人机旋转特性和平移特性建立四旋翼模型,设计任务要求为无人机从起始点起飞,悬停至目标点;根据任务要求和四旋翼模型搭建任务环境;2)对四旋翼无人机任务环境进行完善,加入风切变和离散突风两种类型的风场模型;3)根据任务环境中不同的姿态、轨迹控制要求来设置相应的动作空间和状态空间,制定环境规则和状态边界值;4)得到训练任务环境的控制策略,需要依据维度裁剪机制来优化PPO算法;更改算法中的目标函数并提出额外损失;5)在优化后的PPO算法中引入分布式奖励值信号;根据状态边界值设定惩罚项,通过对分层的奖惩函数给予相应的权值;6)设计深度神经网络架构,强化学习算法的策略更新将作为神经网络的输入端;使用多层感知器(MLP)结构;7)使用基于维度裁剪的PPO算法在风场环境下训练策略,通过神经网络输出四旋翼的控制策略;训练完毕后观察无人机的控制效果,验证强化学习算法训练的控制策略的抗干扰能力。2.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤1)中,构建的四旋翼学模型为设定任务要求为控制四旋翼从[0,0,0]的起始点起飞至[5,5,5]的目标点并稳定的悬停在目标点。3.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤2),在四旋翼任务环境中加入风切变和离散突风两种风场模型,其中风切变的模型为V
pw
为产生的风切变风速值,V
w0
为摩擦速度,由空气密度ρ和地面剪应力τ0决定,表达式为:k为Karman常数,H为四旋翼的飞行高度,一般取0.4,H0为粗糙度高度,一般取为0.05;离散突风的模型为其中V
wm
为突风的峰值,d
m
为突风尺度范围,x为离突风中心的距离。4.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤3)中,偏航角不作限制,根据任务环境设置一个三维的动作空间和八维的状态空
间;动作输入为四旋翼转子的转速,设置动作空间的大小为[0,500],位置的状态空间大小为[

10,10],姿态角速度的状态空间大小设置为[

4.5,4.5],滚转、俯仰角的状态空间大小设置为[...

【专利技术属性】
技术研发人员:薛文涛吴行行吴帅叶辉杨晓飞
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1