【技术实现步骤摘要】
基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法
[0001]本专利技术属于四旋翼无人机的智能控制
,尤其涉及一种基于维度裁剪的近端策略优化算法的无人机姿态轨迹控制方法。
技术介绍
[0002]近年来,无人机被广泛应用于农业植保、公安、军事、消防应急等领域。四旋翼是典型的欠驱动非线性强耦合系统,其姿态控制和轨迹控制一直是研究的热点之一。但是,影响四旋翼飞行器的因素很多,如环境干扰、飞行时电机快速旋转产生的陀螺扭矩、空气阻力干扰、旋翼质量分布不均等。这种不确定性使得对四旋翼飞行器进行精确建模非常困难。因此,依赖精确建模的传统控制算法难以满足控制要求,探索一种能够将环境与可变动态适应性相结合的方法是非常必要的。在四旋翼控制方法研究中,根据预设的性能范围,传统控制方法难以快速收敛控制系统的跟踪误差。强化学习作为一种有效的无模型方法并应用于四旋翼飞行器以实现四旋翼飞行器系统的优化控制。利用神经网络开发智能飞行控制系统已逐渐成为一个非常热门的研究领域。
[0003]强化学习算法可以在接近现实世界复杂性的情况下取得成功。专利号CN 111460650 A的专利采用了一种基于深度强化学习的无人机端到端控制方法,来完成无人机的自主着陆任务,该专利技术用到的Actor
‑
Critic算法虽然在应对不同阶段中导航的高端控制策略上优于DQN等值函数强化学习算法,但在训练控制策略时,Actor网络的策略更新还是过于依赖Critic网络给出的优势值,样本采样率较低。专利号CN 108319286 A的专利采用一 ...
【技术保护点】
【技术特征摘要】
1.一种基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,包括以下步骤:1)搭建四旋翼任务环境;根据无人机旋转特性和平移特性建立四旋翼模型,设计任务要求为无人机从起始点起飞,悬停至目标点;根据任务要求和四旋翼模型搭建任务环境;2)对四旋翼无人机任务环境进行完善,加入风切变和离散突风两种类型的风场模型;3)根据任务环境中不同的姿态、轨迹控制要求来设置相应的动作空间和状态空间,制定环境规则和状态边界值;4)得到训练任务环境的控制策略,需要依据维度裁剪机制来优化PPO算法;更改算法中的目标函数并提出额外损失;5)在优化后的PPO算法中引入分布式奖励值信号;根据状态边界值设定惩罚项,通过对分层的奖惩函数给予相应的权值;6)设计深度神经网络架构,强化学习算法的策略更新将作为神经网络的输入端;使用多层感知器(MLP)结构;7)使用基于维度裁剪的PPO算法在风场环境下训练策略,通过神经网络输出四旋翼的控制策略;训练完毕后观察无人机的控制效果,验证强化学习算法训练的控制策略的抗干扰能力。2.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤1)中,构建的四旋翼学模型为设定任务要求为控制四旋翼从[0,0,0]的起始点起飞至[5,5,5]的目标点并稳定的悬停在目标点。3.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤2),在四旋翼任务环境中加入风切变和离散突风两种风场模型,其中风切变的模型为V
pw
为产生的风切变风速值,V
w0
为摩擦速度,由空气密度ρ和地面剪应力τ0决定,表达式为:k为Karman常数,H为四旋翼的飞行高度,一般取0.4,H0为粗糙度高度,一般取为0.05;离散突风的模型为其中V
wm
为突风的峰值,d
m
为突风尺度范围,x为离突风中心的距离。4.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤3)中,偏航角不作限制,根据任务环境设置一个三维的动作空间和八维的状态空
间;动作输入为四旋翼转子的转速,设置动作空间的大小为[0,500],位置的状态空间大小为[
‑
10,10],姿态角速度的状态空间大小设置为[
‑
4.5,4.5],滚转、俯仰角的状态空间大小设置为[...
【专利技术属性】
技术研发人员:薛文涛,吴行行,吴帅,叶辉,杨晓飞,
申请(专利权)人:江苏科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。