基于控制障碍函数的安全强化学习四旋翼控制系统及方法技术方案

技术编号:33037564 阅读:26 留言:0更新日期:2022-04-15 09:16
本发明专利技术公开了一种基于控制障碍函数的安全强化学习四旋翼控制系统,包括仿真平台和控制器,所述接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令,所述控制器包括强化学习子控制器和控制障碍函数子控制器,通过控制障碍函数与近端策略优化法结合的方式,解决了强化学习类的控制器安全性低的问题,提高了系统的稳定性。了系统的稳定性。了系统的稳定性。

【技术实现步骤摘要】
基于控制障碍函数的安全强化学习四旋翼控制系统及方法


[0001]本专利技术涉及一种基于控制障碍函数的安全强化学习四旋翼控制方法,属于无人机控制


技术介绍

[0002]四旋翼作为一个典型的多输入多输出的非线性系统,具有强耦合,欠驱动等等一系列控制难点。随着人工智能的发展,基于强化学习的四旋翼控制被广为研究。
[0003]强化学习(Reinforcement Learning,RL)是一种专注于寻找最大化长期奖励的智能体策略算法。强化学习通过不断观测环境状态,并基于环境采用相应的策略以获得环境反馈得到的奖励。随着时间的不断推移,强化学习方法利用与环境交互获得到的数据训练自身策略以最大化长期累计汇报。
[0004]但是,现有的基于强化学习的四旋翼控制方法往往只侧重于最大化长期回报,导致智能体在探索过程中出现不安全的策略行为,这使得现有强化学习方法在很难应用于实际的硬件部署。
[0005]现有技术中还具有基于安全的强化学习方法,基于安全的强化学习方法在尝试学习一个能最大化预期回报的同时,其策略需满足某些特定的安全约束。然而,这些方法都是基于model

free的方法,很难保证在没有模型借鉴的情况下智能体学习过程的安全性,该类方法只实现在足够的学习时间后,智能体策略的近似安全。
[0006]因此,有必要研究一种能够解决上述问题的基于强化学习的四旋翼控制方法。

技术实现思路

[0007]为了克服上述问题,本专利技术人进行了深入研究,一方面,设计出一种基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,包括仿真平台和控制器,
[0008]所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令,输出无人机的状态量,
[0009]所述接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令。
[0010]优选地,所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,
[0011]所述电机执行器表示为:
[0012]r=Cr*u+Wb
[0013]T=Ct*r2[0014]M=Cm*r2[0015]其中,C
r
为电机转速比例参数,W
b
为电机转速偏置参数,C
t
为螺旋桨推力系数,C
m
为螺旋桨扭力系数;
[0016]所述电机转矩分配用于分配无人机不同电机的功率;
[0017]所述四旋翼动力学模型表示为:
[0018][0019][0020][0021][0022][0023][0024]其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,J
yy
,J
zz
,J
xx
表示无人机三轴的转动惯量,J
R
表示电机转子和螺旋桨绕机体转轴的总转动惯量,Ω
R
表示电机转速,L表示电机到无人机质心的距离。
[0025]优选地,所述控制器包括强化学习子控制器和控制障碍函数子控制器,
[0026]所述强化学习子控制器包括一个神经网络,其通过给定的初始策略的条件下,通过不断的优化策略,对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入为无人机的状态量x,输出为强化学习后的动作指令u
rl

[0027]所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令u
rl
进行修正,使其满足安全性保证,输出修正后的控制指令u
cbf

[0028]无人机的状态量x表示为:
[0029][0030]其中,p
x

y
,p
z
表示无人机的三轴位置信息,表示滚转角,θ表示俯仰角,ψ表示偏航角。
[0031]优选地,在强化学习子控制器中采用近端策略优化法。
[0032]优选地,在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令u
rl
和控制指令u
cbf
的绝对值。
[0033]优选地,所述控制障碍函数子控制器中采用控制障碍函数法对强化学习后的动作指令u
rl
进行修正,通过设置安全性条件,采用约束使得无人机的姿态稳定到一个固定的范围内,
[0034]所述安全性条件为:φ,θ的角度在[

∈,∈]之间,
[0035]所述约束为:
[0036][0037]α
11
、α
10
、α
21
、α
20
、α
31
、α
30
、α
41
、α
40
为参数,每个参数均满足:F
b

G
b
α属于hurwitz矩阵,
[0038]其中,α∈[α
11
,α
10
,α
21
,α
20
,α
31
,α
30
,α
41
,α
40
];
[0039][0040]优选地,所述控制障碍函数子控制器设置为:
[0041][0042]另一方面,本专利技术还提供了一种基于控制障碍函数的安全强化学习四旋翼控制方法,包括以下步骤:
[0043]S1、建立仿真平台;
[0044]S2、设置控制器结构;
[0045]S3、对设置的控制器结构进行训练,获得最终的控制器。
[0046]优选地,在S2中,所述控制器包括强化学习子控制器和控制障碍函数子控制器;
[0047]在强化学习子控制器中采用近端策略优化法,近端策略优化法中状态设置为无人机的状态量x和目标位置,状态量表示为动作设置为无人机不同电机对应的占空比,奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令u
rl
和控制指令u
cbf
的绝对值。
[0048]优选地,在S3中,进行强化学习训练,训练过程按照如下步骤迭代进行:
[0049]强化学习子控制器基于无人机状态信息、目标位置信息,生成相应的强化学习控制指令u
rl

[0050]控制障碍函数子控制器基于无人机状态信息,对强化学习控制指令u
rl
进行修正,使其满足安全性保证,输出修正后的控制指令u
cbf

[0051]仿真平台接收修正后的控制指令u
cbf
,根据指令进行仿真,输出无人机的无人机状态信息。
[0052]本专利技术所具有的有益效果包括:
[0053](1)将强化学习方法与控制障碍函数结合在一起,共本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,包括仿真平台和控制器,所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令,输出无人机的状态量,所述控制器接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令。2.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,所述电机执行器表示为:r=Cr*u+WbT=Ct*r2M=Cm*r2其中,C
r
为电机转速比例参数,W
b
为电机转速偏置参数,C
t
为螺旋桨推力系数,C
m
为螺旋桨扭力系数;所述电机转矩分配用于分配无人机不同电机的功率;所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:所述四旋翼动力学模型表示为:其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,J
yy
,J
zz
,J
xx
表示无人机三轴的转动惯量,J
R
表示电机转子和螺旋桨绕机体转轴的总转动惯量,Ω
R
表示电机转速,L表示电机到无人机质心的距离。3.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,所述控制器包括强化学习子控制器和控制障碍函数子控制器,所述强化学习子控制器包括一个神经网络,其通过给定的初始策略的条件下,通过不断的优化策略,对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入
为无人机的状态量x,输出为强化学习后的动作指令u
rl
;所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令u
rl
进行修正,使其满足安全性保证,输出修正后的控制指令u
cbf
;无人机的状态量x表示为:其中,p
x
,p
y
,p
z
表示无人机的三轴位置信息,φ表示滚转角,θ表示俯仰角,ψ表示偏航角。4.根据权利要求3所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,在强化学习子控制器中采用近端策略优化法。5.根据权利要求3所述的基于控制障碍函数的安全强化学习四旋翼控制系统,其特征在于,在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令u
rl
和控制指令u

【专利技术属性】
技术研发人员:张福彪周天泽林德福莫雳宋韬王亚凯陈祺刘明成郎帅鹏孙之问王昭舜
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1