【技术实现步骤摘要】
一种四旋翼无人机积分补偿确定性策略梯度控制方法
本专利技术属于无人机控制领域,涉及一种四旋翼无人机积分补偿确定性策略梯度控制方法。
技术介绍
小型四旋翼无人机以其机械结构简单、使用成本低廉等优势在航空摄影、农业植保、社会治安、电力巡检、灾害评估与搜救等各个方面都发挥了巨大的作用。四旋翼无人机高效稳定的运动控制是其完成各类飞行任务的关键。四旋翼无人机的动力学模型是一个不稳定的系统,具有欠驱动、非线性、强耦合的特性。对于这样的系统模型的控制本身具有较大的难度。各类四旋翼无人机在使用材料、机身尺寸、机体重量、气动外形方面各不相同。其转动惯量、空气阻力系数等建模的关键参数实际上难以准确测量。另外考虑到四旋翼在实际飞行中,还面临各种外部的干扰,例如阵风干扰、任务配载变化等问题。针对四旋翼无人机控制问题中动态模型参数未知和外部扰动未知的问题,国内高校和研究机构也给出了一些解决方法。例如基于全局滑模控制的方法(专利:一种四旋翼无人机控制方法;申请号:201610361685.1),该方法将全局滑模控制的动态滑模面的衰减函数设计为由 ...
【技术保护点】
1.一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于,包括如下步骤:/n步骤S1,建立无人机非线性数学模型,如下式所示:/n
【技术特征摘要】
1.一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于,包括如下步骤:
步骤S1,建立无人机非线性数学模型,如下式所示:
其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角;分别表示三个姿态角度的二阶导数;x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置;代表三个位置的二阶导数;L=0.2m为四旋翼飞行器的力臂长度;K=8.78为四旋翼飞行器电机的推力系数;Kψ=0.4为电机的反扭矩系数;Ix=0.03kg·m2、Iy=0.03kg·m2、Iz=0.04kg·m2为四旋翼无人机绕机体三轴的转动惯量;m=1.79kg为四旋翼的总质量;g=9.81m/s2为重力加速度常数;sin和cos分别为正弦和余弦函数,四旋翼无人机的运动状态量表示为:
其中为三个姿态角度的一阶导数,即三轴角速度,为三维速度误差值,定义为其中为四旋翼无人机三维位置坐标的一阶导数,即三维速度值;为四旋翼无人机的三维目标速度值;下标t表示时间步数,四旋翼无人机的控制量表示为:a=[u1,u2,u3,u4];
步骤S2,建立由神经网络表示的控制器和评价器,即控制器网络和评价器网络,控制器网络的输入端连接有积分补偿器,积分补偿器将四旋翼无人机的速度误差状态通过积分的方式补偿为其按照时间积分的形式,例如X轴速度误差的积分形式表示为:
其中符号的上标t表示时间步,其中t=T表示当前时间步,若将上标省略,则默认表示当前时间步,表示在当前时间步四旋翼无人机X轴方向的速度误差值,表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值,β=0.01为积分增益,同理可以得到Y轴和Z轴速度误差的积分补偿形式,和控制器网络的输入层表示为:控制器网络具有两个隐含层,每层包含128个隐节点,控制器网络每一层都使用Sigmoid函数,控制器网络的输出为四旋翼无人机的控制输入,表示为a=[u1,u2,u3,u4],控制器网络整体表示为:a=Aμ(sc),其中μ表示该网络的所有参数,评价器网络的输入层表示为:评价器网络具有两个隐含层,每层包含128个隐节点,评价器网络的前三层的激活函数为Sigmoid函数,最后一层使用的为Linear函数,输出表示为状态-动作值:q,评价器网络整体表示为:q=Qw(s,a),其中w表示该网络的所有参数,
步骤S3,根据控制目标设计奖励函数R,奖励函数值r可以通过四旋翼状态量计算得到,其具体设计为:
步骤S4,使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据;
步骤S5,根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器;
步骤S6,根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制。
2.根据权利要求1中所述一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于;步骤S4中使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据具体的执行步骤包括步骤S4-1到步骤S4-9;
步骤S4-1,随机初始化控制器和评价器,控制器和评价器用步骤S2中所示神经网络分别表示,控制器网络连接的权值参数μ以及评价器网络连接的权值参数w,可以使用均值为0,方差为0.01的高斯分布随机数进行初始化,另外初始化评价器网络的目标网络,表示为q′=Qw′(s,a),其结构与评价器网络完全相同,其参数w′的初始值与评价器网络的参数w也是相同的;
步骤S4-2,初始化四旋翼无人机的状态,在安全范围内随机初始化四旋翼的运动状态和目标速度,安全范围设置为:姿态角速度-4.5~4.5rad/s;姿态角(φ,θ,ψ):-45°~45°;运动速度和目标速度-10~10m/s;
步骤S4-3,获取四旋翼初始状态,其包括四旋翼的自身的运动传感量以及目标速度进而可以计算出四旋翼无人机的运动状态量
步骤S4-4,状态误差积分补偿,通过步骤S2中所述积分补偿的计算方法...
【专利技术属性】
技术研发人员:孙长银,王远大,孙佳,刘剑,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。