【技术实现步骤摘要】
基于控制障碍函数的安全强化学习四旋翼控制系统及方法
[0001]本专利技术涉及一种基于控制障碍函数的安全强化学习四旋翼控制方法,属于无人机控制
技术介绍
[0002]四旋翼作为一个典型的多输入多输出的非线性系统,具有强耦合,欠驱动等等一系列控制难点。随着人工智能的发展,基于强化学习的四旋翼控制被广为研究。
[0003]强化学习(Reinforcement Learning,RL)是一种专注于寻找最大化长期奖励的智能体策略算法。强化学习通过不断观测环境状态,并基于环境采用相应的策略以获得环境反馈得到的奖励。随着时间的不断推移,强化学习方法利用与环境交互获得到的数据训练自身策略以最大化长期累计汇报。
[0004]但是,现有的基于强化学习的四旋翼控制方法往往只侧重于最大化长期回报,导致智能体在探索过程中出现不安全的策略行为,这使得现有强化学习方法在很难应用于实际的硬件部署。
[0005]现有技术中还具有基于安全的强化学习方法,基于安全的强化学习方法在尝试学习一个能最大化预期回报的同时,其策略需满足某些特定的安全约束。然而,这些方法都是基于model
‑
free的方法,很难保证在没有模型借鉴的情况下智能体学习过程的安全性,该类方法只实现在足够的学习时间后,智能体策略的近似安全。
[0006]因此,有必要研究一种能够解决上述问题的基于强化学习的四旋翼控制方法。
技术实现思路
[0007]为了克服上述问题,本专利技术人进行了深入研究,一方面,设计出一种基 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,包括仿真平台和控制器,所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令,输出无人机的状态量,所述控制器接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令。2.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,所述电机执行器表示为:r=Cr*u+WbT=Ct*r2M=Cm*r2其中,C
r
为电机转速比例参数,W
b
为电机转速偏置参数,C
t
为螺旋桨推力系数,C
m
为螺旋桨扭力系数;所述电机转矩分配用于分配无人机不同电机的功率;所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,J
yy
,J
zz
,J
xx
表示无人机三轴的转动惯量,J
R
表示电机转子和螺旋桨绕机体转轴的总转动惯量,Ω
R
表示电机转速,L表示电机到无人机质心的距离。3.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,所述控制器包括强化学习子控制器和控制障碍函数子控制器,所述强化学习子控制器包括一个神经网络,其通过给定的初始策略的条件下,通过不断的优化策略,对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入
为无人机的状态量x,输出为强化学习后的动作指令u
rl
;所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令u
rl
进行修正,使其满足安全性保证,输出修正后的控制指令u
cbf
;无人机的状态量x表示为:其中,p
x
,p
y
,p
z
表示无人机的三轴位置信息,φ表示滚转角,θ表示俯仰角,ψ表示偏航角。4.根据权利要求3所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,在强化学习子控制器中采用近端策略优化法。5.根据权利要求3所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令u
rl
和控制指令u
技术研发人员:张福彪,周天泽,林德福,莫雳,宋韬,王亚凯,陈祺,刘明成,郎帅鹏,孙之问,王昭舜,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。