基于强化学习的四旋翼无人机预置性能跟踪控制方法技术

技术编号：38683713 阅读：13 留言：0更新日期：2023-09-02 22:56

本发明专利技术公开了基于强化学习的四旋翼无人机预置性能跟踪控制方法，包括：构建姿态跟踪误差模型；基于离散化后的姿态跟踪误差模型构造四旋翼无人机长期代价函数，形成积分强化学习的实时奖励函数；构建评价神经网络，基于评价神经网络对长期代价函数的估计值，构建积分强化学习的误差模型，结合实时奖励函数，建立评价神经网络

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的四旋翼无人机预置性能跟踪控制方法

[0001]本专利技术属于无人机自动控制
，具体涉及基于强化学习的四旋翼无人机预置性能跟踪控制方法。

技术介绍

[0002]随着航空航天技术的发展与进步，在各种类型的四旋翼无人机中，四旋翼飞行器作为无人机家族中的一类特殊飞行器，以其低成本、小尺寸、结构简单以及机动性强的特点，多用于监视侦察、紧急救援、空中航拍、大气监测等用途，在军事、民用领域展现出了的巨大应用前景，在全世界范围内形成了研究热潮，而控制系统的研究则是四旋翼飞行器研究中的核心。
[0003]考虑到四旋翼飞行器是一个多变量、欠驱动、强耦合的非线性系统，一些学者采用了智能控制策略进行非线性系统识别和补偿，但尚未考虑到强非线性条件下的瞬态性能，对瞬态性能控制的不足可能导致系统响应不佳，包括超调、收敛速率和其他相关因素，会危及系统的稳定性，甚至可能导致系统故障。因此，对四旋翼无人机控制系统的瞬态性能进行全面研究具有至关重要的意义，如何增强控制系统有效处理动态突变的能力来提高系统的安全性能成为研究热点。
[0004]目前，关于四旋翼无人机的跟踪控制方法主要集中以下几个方面：(1) 基于扰动观测器的外部抗干扰控制；(2) 基于势函数或者图像的自适应避障控制；(3) 基于自适应动态规划的姿态控制等。在以往的四旋翼无人机设计过程中，通常情况下针对四旋翼无人机飞行的鲁棒性、安全性和可操控性进行研究，旨在提高四旋翼无人机复杂环境的适应性，但以往的方法在提高系统的瞬态性能以及智能自主性方面还鲜有研究。/>
技术实现思路

[0005]本专利技术所要解决的技术问题是针对上述现有技术的不足，提供基于强化学习的四旋翼无人机预置性能跟踪控制方法，在传统控稳四旋翼无人机的基础上，从动态性能和自主性方面提高四旋翼无人机的性能，为后续的智能自主应用提供强有力的支撑。
[0006]为实现上述技术目的，本专利技术采取的技术方案为：基于强化学习的四旋翼无人机预置性能跟踪控制方法，包括以下步骤：步骤1：构建四旋翼无人机的姿态动力模型，采用预置性能函数对姿态动力模型建立姿态角状态约束后，结合姿态角误差变量，构建满足四旋翼无人机瞬态响应性能要求的姿态跟踪误差模型；步骤2：将步骤1构建的姿态跟踪误差模型离散化，基于离散化后的姿态跟踪误差模型构造四旋翼无人机的长期代价函数，形成积分强化学习的实时奖励函数；步骤3：构建四旋翼无人机系统控制行为好坏的评价神经网络，基于评价神经网络对长期代价函数的估计值，构建积分强化学习的误差模型，结合步骤2形成的实时奖励函数，建立评价神经网络
‑
动作神经网络积分强化学习控制模型；
步骤4：对评价神经网络
‑
动作神经网络积分强化学习控制模型中的评价神经网络、动作神经网络分别设计权重更新律，使用采用所述权重更新律的积分强化学习控制模型对四旋翼无人机姿态进行跟踪控制。
[0007]为优化上述技术方案，采取的具体措施还包括：上述的步骤1包括以下子步骤：步骤11：构建四旋翼无人机的姿态动力模型：；其中，为四旋翼无人机姿态角的变化率；为四旋翼无人机姿态角速率的变化率；为四旋翼无人机的姿态角系统的旋转矩阵；、为四旋翼无人机的姿态角速率、转动惯量；为四旋翼无人机的姿态角速率矩阵；为四旋翼无人机的控制力矩；为四旋翼无人机受到的外部有界干扰；步骤12：采用预置性能函数对姿态动力模型建立姿态角状态约束：；其中为i下的四旋翼无人机姿态角；，、、分别为滚转角、俯仰角和偏航角，表示下标指代的是滚转角、俯仰角和偏航角中的一个；为预置性能指标函数，满足，；，为常数，满足，为时间变量；为预置性能指标函数的幅值调节参数，满足；步骤13：结合姿态角误差变量，构建满足四旋翼无人机瞬态响应性能要求的姿态跟踪误差模型：；其中，和分别为预置性能跟踪误差向量关于时间的一阶与二阶导数；为姿态角误差变量兼顾四旋翼无人机的状态约束与控制模型，具体为：
；为四旋翼无人机姿态角向量，，中间变换变量，其中，辅助姿态角约束变量，为关于时间的一阶导数，为约束姿态角的预置性能指标函数向量，为关于时间的一阶导数，为关于时间的二阶导数，为四旋翼无人机的姿态角系统的旋转矩阵，为四旋翼无人机的姿态角系统的旋转矩阵关于时间的一阶导数，，为引入的中间变量。
[0008]上述的，与分别为：；其中分别为滚转角速率、俯仰角速率和偏航角速率；、、分别为滚转角、俯仰角和偏航角。
[0009]上述的为：；其中，表示双曲余割函数，；，和为根据四旋翼无人机的瞬态性能选择的性能参数，，决定四旋翼无人机姿态角运行的初始边界与终点边界，决定四旋翼无人机预置性能函数约束下姿态角的收敛速度。
[0010]上述的步骤2包括以下子步骤：步骤21：将步骤1构建的姿态跟踪误差模型离散化，得到离散化后的姿态跟踪误差模型：；
其中，为基于前向差分法离散化的第步预置性能跟踪误差向量及预置性能跟踪误差向量关于时间的一阶导数；、分别为基于前向差分法离散化的第步预置性能跟踪误差向量及预置性能跟踪误差向量关于时间的一阶导数；为离散化的控制输入力矩；分别为离散化模型的模型矩阵和控制分配矩阵；为离散化后的四旋翼无人机外部有界扰动；步骤22：基于步骤21得到的离散化后的姿态跟踪误差模型中的误差状态量与控制量构造四旋翼无人机的长期代价函数：；其中，为正定函数，反应当前四旋翼无人机姿态角是否发生了越界；为在当前第步基础上，时间向后进行控制性能预测的步数；为离散化后第步的预置性能跟踪误差向量及其一阶导数；为关于的次幂函数值，为折扣因子，满足；为正定矩阵的权重矩阵，平衡四旋翼无人机模型的跟踪误差性能与能量消耗；为离散化后第步的控制输入力矩；为基于前向差分法离散化误差模型的初始时刻；步骤23：根据步骤22的长期代价函数，形成积分强化学习第步的实时奖励函数：；
其中，，表示四旋翼无人机姿态模型的输出量；为正定的权重矩阵；为期望的四旋翼无人机姿态角信号。
[0011]上述的步骤3包括如下子步骤：步骤31：构建四旋翼无人机模型控制行为好坏的评价神经网络：；其中，为理想的评价神经网络的权重矩阵；为期望的长期性能指标函数，为全是零的向量；为评价神经网络的激活函数；为评价神经网络对期望的长期性能指标函数的估计误差；满足，和，均为未知的常数；步骤32：基于评价神经网络对长期代价函数的估计值，构建积分强化学习的误差模型：；其中，为评价神经网络对长期代价函数的估计值，为积分强化学习的误差；步骤33：基于积分强化学习的误差模型与实时奖励函数，建立评价神经网络
‑
动作神经网络积分强化学习控制模型：基于积分强化学习的误差模型，在第步，建立如下的四旋翼无人机姿态角跟踪误差：；其中，和；为期望的四旋翼无人机姿态角跟踪信号；进而，在姿态角跟踪误差的基础上，引入第步的姿态角速率跟踪误差：；依据状态反馈控制律的设计方法，设计理想控制器如下：；其中，为设计的控制增益；引入如下的动作神经网络设计：；
其中，为理想的动作神经网络的权重，为动作神经网络的激活函数；动作神经网络本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于强化学习的四旋翼无人机预置性能跟踪控制方法，其特征在于，包括以下步骤：步骤1：构建四旋翼无人机的姿态动力模型，采用预置性能函数对姿态动力模型建立姿态角状态约束后，结合姿态角误差变量，构建满足四旋翼无人机瞬态响应性能要求的姿态跟踪误差模型；步骤2：将步骤1构建的姿态跟踪误差模型离散化，基于离散化后的姿态跟踪误差模型构造四旋翼无人机的长期代价函数，形成积分强化学习的实时奖励函数；步骤3：构建四旋翼无人机系统控制行为好坏的评价神经网络，基于评价神经网络对长期代价函数的估计值，构建积分强化学习的误差模型，结合步骤2形成的实时奖励函数，建立评价神经网络
‑
动作神经网络积分强化学习控制模型；步骤4：对评价神经网络
‑
动作神经网络积分强化学习控制模型中的评价神经网络、动作神经网络分别设计权重更新律，使用采用所述权重更新律的积分强化学习控制模型对四旋翼无人机姿态进行跟踪控制。2.根据权利要求1所述的基于强化学习的四旋翼无人机预置性能跟踪控制方法，其特征在于，所述步骤1包括以下子步骤：步骤11：构建四旋翼无人机的姿态动力模型：；其中，为四旋翼无人机姿态角的变化率；为四旋翼无人机姿态角速率的变化率；为四旋翼无人机的姿态角系统的旋转矩阵；、为四旋翼无人机的姿态角速率、转动惯量；为四旋翼无人机的姿态角速率矩阵；为四旋翼无人机的控制力矩；为四旋翼无人机受到的外部有界干扰；步骤12：采用预置性能函数对姿态动力模型建立姿态角状态约束：；其中为i下的四旋翼无人机姿态角；，、、分别为滚转角、俯仰角和偏航角，表示下标指代的是滚转角、俯仰角和偏航角中的一个；为预置性能指标函数，满足，；，为常数，满足，为时间变量；为预置性能指标函数的幅值调节参数，满足；步骤13：结合姿态角误差变量，构建满足四旋翼无人机瞬态响应性能要求的姿态跟踪
误差模型：；其中，和分别为预置性能跟踪误差向量关于时间的一阶与二阶导数；为姿态角误差变量兼顾四旋翼无人机的状态约束与控制模型，具体为：；为四旋翼无人机姿态角向量，，中间变换变量，其中，辅助姿态角约束变量，为关于时间的一阶导数，为约束姿态角的预置性能指标函数向量，为关于时间的一阶导数，为关于时间的二阶导数，为四旋翼无人机的姿态角系统的旋转矩阵，为四旋翼无人机的姿态角系统的旋转矩阵关于时间的一阶导数，，为引入的中间变量。3.根据权利要求2所述的基于强化学习的四旋翼无人机预置性能跟踪控制方法，其特征在于，，与分别为：；其中分别为滚转角速率、俯仰角速率和偏航角速率；、、分别为滚转角、俯仰角和偏航角。4.根据权利要求2所述的基于强化学习的四旋翼无人机预置性能跟踪控制方法，其特征在于，所述为：；其中，表示双曲余割函数，；
，和为根据四旋翼无人机的瞬态性能选择的性能参数，，决定四旋翼无人机姿态角运行的初始边界与终点边界，决定四旋翼无人机预置性能函数约束下姿态角的收敛速度。5.根据权利要求1所述的基于强化学习的四旋翼无人机预置性能跟踪控制方法，其特征在于，所述步骤2包括以下子步骤：步骤21：将步骤1构建的姿态跟踪误差模型离散化，得到离散化后的姿态跟踪误差模型：；其中，为基于前向差分法离散化的第步预置性能跟踪误差向量及预置性能跟踪误差向量关于时间的一阶导数；、分别为基于前向差分法离散化的第步预置性能跟踪误差向量及预置性能跟踪误差向量关于时间的一阶导数；为离散化的控制输入力矩；分别为离散化模型的模型矩阵和控制分配矩阵；为离散化后的四旋翼无人机外部有界扰动；步骤22：基于步骤21得到的离散化后的姿态跟踪误差模型中的误差状态量与控制量构造四旋翼无人机的长期代价函数：；其中，为正定函数...

【专利技术属性】
技术研发人员：赵冬，苏延旭，黄大荣，
申请(专利权)人：安徽大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人