一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法技术

技术编号:38057153 阅读:11 留言:0更新日期:2023-06-30 11:22
一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法,属于无人机自动控制技术领域。建立无人飞行器六自由度模型,给定期望跟踪轨迹,根据给定的轨迹得到期望的位置、姿态角、速度和角速度;轨迹跟踪误差计算:计算实际轨迹与期望轨迹之间的误差,定义滤波跟踪误差,并对其求导;对输入进行事件触发机制设计,设计状态量,设计合理的事件触发的参数;评估器神经网络设计,设计评估系统的跟踪性能,用于跟踪性能提升;执行器神经网络设计,逼近模型中不确定项;结合神经网络得到模型非线性控制律计算。本发明专利技术的方法基于强化学习和事件触发的方法,实现了最优控制,解决了参数不确定、外界干扰下的无人飞行器长时驻空中执行器损耗和通讯负担问题。耗和通讯负担问题。耗和通讯负担问题。

【技术实现步骤摘要】
一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法


[0001]本专利技术提供一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法,针对考虑了未知扰动的无人飞行器系统,提供了一种抑制外界扰动实现最优控制和事件触发的控制方法,属于无人机自动控制


技术介绍

[0002]无人机更是渗透到生活的方方面面中,在军警领域广泛应用于空中巡逻、情报预警以及战场侦察等任务,同时在救灾防灾,勘察测绘等民用商业领域也有着出色的表现。无人机作为国家十四五规划中的高新技术产业,在军事和民生行业应用潜力巨大,因此近几年成为了研究热点项目,并取得了飞速发展。实际应用中机载通信带宽往往是十分有限的,需要考虑尽可能的减少通信量,一种解决思路是引入事件驱动机制。长时驻空中的无人飞行器存在降低执行器动作频率的需求,且在需要完成飞行任务的前提下实现该需求,才能延长执行器的寿命。
[0003]本专利技术“一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法”把以上问题作为切入点,基于强化学习和事件触发的方法,实现了最优控制,解决了参数不确定、外界干扰下的无人飞行器长时驻空中执行器损耗和通讯负担问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法,实现了精准跟踪并减少执行器动作频率。
[0005]技术方案:本专利技术“一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法”,其主要内容及步骤是:根据给定期望轨迹确定无人飞行器轨迹跟踪误差,对跟踪问题进行了公式化,设计合适的基于状态的事件触发机制条件,使用神经网络来构建强化学习中的执行器网络和评估器网络,执行器神经网络去拟合模型中的外界扰动和动态耦合,评估器去拟合传统的长期性能指标函数,随后得到系统的跟踪控制律。
[0006]本专利技术“一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法”,其具体步骤如下:
[0007]步骤一建立无人飞行器六自由度模型,给定期望跟踪轨迹,根据给定的轨迹得到期望的位置、姿态角、速度和角速度。
[0008]步骤二轨迹跟踪误差计算:计算实际轨迹与期望轨迹之间的误差,定义滤波跟踪误差,并对其求导。
[0009]步骤三对输入进行事件触发机制设计,设计状态量,设计合理的事件触发的参数。
[0010]步骤四评估器神经网络设计,设计评估系统的跟踪性能,用于跟踪性能提升。
[0011]步骤五执行器神经网络设计,逼近模型中不确定项。
[0012]步骤六结合神经网络得到模型非线性控制律计算:计算消除期望轨迹与实际轨
迹误差所需的控制量τ。
[0013]其中,在步骤一中所述的模型建立过程如下:
[0014]首先建立惯性坐标系和机体坐标系;从而可得到无人飞行器的六自由度非线性运动方程:
[0015][0016]无人飞行器的位置坐标P=[x,y,z]T
为无人飞行器机体坐标系的原点在惯性坐标系的坐标。姿态角Θ=[φ,θ,ψ]T
为无人飞行器机体坐标系于惯性坐标系的夹角。速度矢量v=[u,v,w]T
为无人飞行器地速在机体坐标系的沿Ox,Oy,Oz轴的速度分量。角速度矢量Ω=[p,q,r]T
为无人飞行器在机体坐标系的绕Ox,Oy,Oz轴的角速度分量。F
v
,F
ω
,B
12
,B
11
,B
22
,B
21
表示的是状态方程相关的函数,f
v
和f
ω
表示系统外部扰动,τ=[τ
v

ω
]T
=[τ
u

v

w

p

q

r
]T
表示系统的输入。定义X=[P,Θ]T
=[x,y,z,φ,θ,ψ]T
表示系统输出,X
d
=[P
d

d
]T
=[x
d
,y
d
,z
d

d

d

d
]T
表示期望的轨迹;为位置坐标的导数,为速度分量的导数,为角度分量的导数,为角速度的导数,K为艇体坐标系到惯性坐标系的旋转矩阵,R为反解角速度分解投影的变换矩阵。
[0017]轨迹曲线为P
d
=[x
d
,y
d
,z
d
]T
为期望轨迹曲线的位置坐标,为期望位置坐标的导数,期望的姿态角计算公式为
[0018]表示x轴期望的位置坐标导数,表示y轴方向期望的位置坐标导数,表示z轴方向期望的位置坐标导数。
[0019]其中,步骤二的轨迹跟踪误差计算方法及求导计算如下:
[0020]定义跟踪误差e=X

X
d
,定义滤波后的跟踪误差为:其中,K
e
为对称正定矩阵,为跟踪误差的导数。由于期望轨迹的一阶导数和二阶导数的求解相当繁琐和复杂,需要引入指令滤波器来估计其值采用二阶指令滤波器,能够快速跟踪上期望信号。
[0021]通过求导可得以下表达式:
[0022][0023]其中,k
v
为设定的正定常数对角矩阵,k
ω
为设定的正定常数对角矩阵,B
v0
=KB
11
为相关函数,B
ω0
=RB
22
为相关函数,为指令滤波器的状态估计量位置和姿态的二阶导数和一阶导数,和为位置和姿态上的内部耦合、外部扰动和预估误差。和是变换矩阵K和R的导数。
[0024]其中,步骤三中的事件触发机制设计如下:
[0025]系统的控制量取决于s,e,X
d
和其中是期望轨迹X
d
的导数。定义综合误差状态向量则输入可以从时间的函数转变为用状态的方式表示,即控制器在受事件触发条件影响的非周期采样时刻更新,其更新将取决于状态ξ。
[0026]定义测量误差如下表达式:
[0027]e
ξ
=ξ(t
j
)

ξ,t∈(t
j
,t
j+1
][0028]设计的事件触发的机制如下:
[0029][0030]t
k+1
=inf{t>t
k
:||e
ξ
||≥k
s
‖s‖and‖s‖≥r
s
>0}
[0031]其中,u(t)为真实的控制器的输入,当事件触发误差超过事件触发阈值时,当前瞬间的状态为采样状态,传递给控制器,事件触发误差可以表示为事件触发条件。当不触发时,控制器在零阶保持器作用下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法,其特征在于,具体步骤如下:步骤一、建立无人飞行器六自由度模型,给定期望跟踪轨迹,根据给定的轨迹得到期望的位置、姿态角、速度和角速度;步骤二、轨迹跟踪误差计算:计算实际轨迹与期望跟踪轨迹之间的误差,定义滤波跟踪误差,并计算其导数;步骤三、设计输入进行事件触发机制,设计状态量,设计合理的事件触发的参数;步骤四、设计评估器神经网络,设计评估系统的跟踪性能;步骤五、设计执行器神经网络,逼近不确定项;步骤六、结合神经网络得到模型非线性控制律计算。2.根据权利要求1所述的一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法,其特征在于:在步骤一中所述的无人飞行器六自由度模型建立过程如下:首先建立惯性坐标系和机体坐标系;从而可得到无人飞行器的六自由度非线性运动方程:无人飞行器的位置坐标P=[x,y,z]
T
为无人飞行器机体坐标系的原点在惯性坐标系的坐标;姿态角Θ=[φ,θ,ψ]
T
为无人飞行器机体坐标系于惯性坐标系的夹角;速度矢量v=[u,v,w]
T
为无人飞行器地速在机体坐标系的沿Ox,Oy,Oz轴的速度分量;角速度矢量Ω=[p,q,r]
T
为无人飞行器在机体坐标系的绕Ox,Oy,Oz轴的角速度分量;F
v
,F
ω
,B
12
,B
11
,B
22
,B
21
表示的是状态方程相关的函数,f
v
和f
ω
表示系统外部扰动,τ=[τ
v

ω
]
T
=[τ
u

v

w

p

q

r
]
T
表示系统的输入;定义X=[P,Θ]
T
=[x,y,z,φ,θ,ψ]
T
表示系统输出,X
d
=[P
d

d
]
T
=[x
d
,y
d
,z
d

d

d

d
]
T
表示期望的轨迹;为位置坐标的导数,为速度分量的导数,为角度分量的导数,为角速度的导数,K为艇体坐标系到惯性坐标系的旋转矩阵,R为反解角速度分解投影的变换矩阵;轨迹曲线为P
d
=[x
d
,y
d
,z
d
]
T
为期望轨迹曲线的位置坐标,为期望位置坐标的导数,期望的姿态角计算公式为期望的姿态角计算公式为期望的姿态角计算公式为表示x轴期望的位置坐标导数,表示y轴方向期望的位置坐标导数,表示z轴方向期望的位置坐标导数。3.根据权利要求1所述的一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法,其特征在于:在步骤二的轨迹跟踪误差计算方法及求导计算如下:定义跟踪误差e=X

X
d
,定义滤波后的跟踪误差为:其中,K
e
为对称正定矩
阵,为跟踪误差的导数;由于期望轨迹的一阶导数和二阶导数的求解相当繁琐和复杂,需要引入指令滤波器来估计其值采用二阶指令滤波器,能够快速跟踪上期望信号;通过求导可得以下表达式:其中,k
v
为设定的正定常数对角矩阵,k
ω
为设定的正定常数对角矩阵,B
v0
=KB
11
为相关函数,B
ω0
=RB
22
为相关函数,为指令滤波器的状态估计量位置和姿态的二阶导数和一阶导数,和为位置和姿态上的内部耦合、外部扰动和预估误差;和是变换矩阵K和R的导数。4.根据权利要求1所述的一种基于强化学习和事件触发的无人飞行器轨迹跟踪方法,其特征在于:在步骤三中的事件触发机制设计如下:系统的控制量取决于s,e,X
d
和其中是期望轨迹X
d
的导数;定义综合误差状态向量则输入可以从时间的函数转变为用状态的方式表示,即控制器在受事件触发条件影响的非周期采样时刻更新,其更新将取决于状态ξ;定义测量误差如下表达式:e
ξ
=ξ(t
j
)

ξ,t∈(t
j
,t
j+1
]设计的事件触发的机制如下:t
k+1
=inf{t>t
k
:||e
ξ
||≥k
s
‖s‖and‖s‖≥r
s
>0}其中,u(t)为真实的控制器的输入,当事件触发误差超过事件触发阈值时,当前瞬间的状态为采样状态,传递给控制器,事件触发误差可以表示为事件触发条件;当不触发时,控制器在零阶保持器作用下保留上一个时刻的状态t∈(t
j
,t
j+1
];其中,k
s
,r
...

【专利技术属性】
技术研发人员:王业光李贺琦李自强王世鹏
申请(专利权)人:沈阳飞机设计研究所扬州协同创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1