一种基于强化学习的航天器姿态预设定时间协同控制方法技术

技术编号:39738051 阅读:8 留言:0更新日期:2023-12-17 23:40
本发明专利技术公开了一种基于强化学习的航天器姿态预设定时间协同控制方法,进行多航天器姿态协同控制问题的数学描述;构造预设定时间分布式观测器,保证跟随者在预设定时间内获得领航者状态的观测信息;确定预设定时间性能函数定量刻画协同跟踪误差的收敛时间

【技术实现步骤摘要】
一种基于强化学习的航天器姿态预设定时间协同控制方法


[0001]本专利技术属于航天器控制
,尤其涉及一种基于强化学习的航天器姿态预设定时间协同控制方法


技术介绍

[0002]航天器编队系统能够突破单颗航天器在物理结构上的约束,提高信息获取和分辨的能力

有效的航天器姿态协同控制是保证诸如在轨服务

地球监测和空间救援等航天器编队飞行任务成败的关键,因而获得了广泛的关注

[0003]快速机动和高精度稳定的协同能力是航天器编队系统完成诸如高精度观测和测量等复杂任务的前提和保障,主要的协同控制方式分为:有限时间协同控制

固定时间协同控制和预设性能控制

有限时间协同控制虽然具有收敛速度快

控制精度高和鲁棒性强的优势,但是收敛时间的上界与系统的初始状态有关,限制了其在工程中的应用

固定时间协同控制使得收敛时间的上界摆脱了对初值的依赖

但是与有限时间协同控制一样,系统的收敛时间和稳态阈值只能采取事后估计的方式获得

预设性能协同控制能够定量化设计系统瞬态和稳态性能

[0004]常见的航天器编队协同控制策略仅考虑如何改善系统的控制性能
(
如收敛速度

瞬态性能

稳态性能等
)
,忽略了协同控制过程中的能耗问题

而实际航天器所携带的能源都是有限且宝贵的,上述协同算法在改进编队系统性能的同时,势必会增加能量的消耗


技术实现思路

[0005]专利技术目的:本专利技术提供了一种基于强化学习的航天器姿态预设定时间协同控制方法,可以保证航天器编队系统在满足预设定收敛时间

瞬态和稳态性能的同时,兼顾能量消耗问题

[0006]技术方案:本专利技术提供一种基于强化学习的航天器姿态预设定时间协同控制方法,包括以下步骤:
[0007](1)
多航天器姿态协同控制问题的数学描述:根据航天器的动力学特性,建立单航天器姿态动力学模型;采用图论描述成员航天器与领航者以及成员航天器与其邻居航天器之间的通信拓扑关系;
[0008](2)
预设定时间分布式观测器设计:构造预设定时间分布式观测器,保证跟随者在预设定时间内获得领航者状态的观测信息;
[0009](3)
预设定时间性能函数设计及系统等价转换:根据各成员航天器对领航者的姿态估计值定义姿态协同跟踪误差估计值;确定预设定时间性能函数定量刻画协同跟踪误差的收敛时间

瞬态性能及稳态性能约束;基于障碍函数的误差变换将受预设性能约束的协同跟踪误差系统转换为无约束系统:
[0010](4)
分布式最优姿态协同控制律设计:针对无约束的状态方程,确定性能指标函数及其相应的哈密顿

雅克比

贝尔曼方程,通过对哈密顿

雅克比

贝尔曼求解关于最优控制
的偏导得到最优控制输入关于最优函数的表现形式;
[0011](5)
采用强化学习方法在评价网络框架下设计近似最优控制器

[0012]进一步地,步骤
(1)
所述单航天器姿态动力学模型表达为:
[0013][0014][0015]其中,
σ
i
表示航天器
i
相对于惯性系姿态的修正罗德里格参数,
ω
i
表示航天器
i
的角速度,为其反对称矩阵,
J
i
表示第
i
个航天器的转动惯量,
τ
i
表示第
i
个航天器的控制力矩,矩阵
G(
σ
i
)
的表达式为:
[0016][0017]进一步地,步骤
(1)
所述采用图论描述成员航天器与领航者以及成员航天器与其邻居航天器之间的通信拓扑关系实现过程如下:
[0018]航天器编队成员间的通信拓扑结构为无向图,记为其中
N

{n1,

,n
n
}
表示成员航天器集合,是边的集合,
(n
i
,n
j
)
表示航天器
j
与航天器
i
之间可以直接进行信息交互;
A

[a
ij
]为无向图的加权邻接矩阵,若
(n
i
,n
j
)∈E
,则邻接矩阵元素
a
ij
>0
,否则
a
ij
=0;主从架构的多航天器系统假定存在一个虚拟领航者,设置其编号为0,其状态设置为给定的期望轨迹,若航天器
i
与领航者之间有直接的通信连接,则
a
i0
>0
,否则
a
i0

0。
[0019]进一步地,所述步骤
(2)
实现过程如下:
[0020]对于航天器
i
,根据其与其邻居航天器对领航者的姿态和速度估计值,设计预设定时间分布式观测器为:
[0021][0022][0023]其中,
α0,
α1,
α2,
α3>0
为分布式观测器的设计参数,
p
i
和表示第
i
个航天器对领航者姿态
σ0和速度的估计,
k
u
为常值,
θ
(t,t
f1
,
ε1)

1/(
ε1+
θ0(t,t
f1
))

t
f1
>0
为设计者指定的分布式观测器的过渡时间,
ε0,
ε1>0
为设计参数,用来表示观测器的估计误差,且:
[0024][0025]进一步地,步骤
(3)
所述的姿态协同跟踪误差的估计值为:
[0026][0027]其中,为
p
i
的反对称矩阵

[0028]进一步地,步骤
(3)
所述的预设定时间性能函数为:
[0029][0030]其中,
t
f

η
ijs
表示指定的收敛时间上界和稳态值,设计参数
a
ijk
,k
...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的航天器姿态预设定时间协同控制方法,其特征在于,包括以下步骤:
(1)
多航天器姿态协同控制问题的数学描述:根据航天器的动力学特性,建立单航天器姿态动力学模型;采用图论描述成员航天器与领航者以及成员航天器与其邻居航天器之间的通信拓扑关系;
(2)
预设定时间分布式观测器设计:构造预设定时间分布式观测器,保证跟随者在预设定时间内获得领航者状态的观测信息;
(3)
预设定时间性能函数设计及系统等价转换:根据各成员航天器对领航者的姿态估计值定义姿态协同跟踪误差估计值;确定预设定时间性能函数定量刻画协同跟踪误差的收敛时间

瞬态性能及稳态性能约束;基于障碍函数的误差变换将受预设性能约束的协同跟踪误差系统转换为无约束系统:
(4)
分布式最优姿态协同控制律设计:针对无约束的状态方程,确定性能指标函数及其相应的哈密顿

雅克比

贝尔曼方程,通过对哈密顿

雅克比

贝尔曼求解关于最优控制的偏导得到最优控制输入关于最优函数的表现形式;
(5)
采用强化学习方法在评价网络框架下设计近似最优控制器
。2.
根据权利要求1所述的一种基于强化学习的航天器姿态预设定时间协同控制方法,其特征在于,步骤
(1)
所述单航天器姿态动力学模型表达为:所述单航天器姿态动力学模型表达为:其中,
σ
i
表示航天器
i
相对于惯性系姿态的修正罗德里格参数,
ω
i
表示航天器
i
的角速度,为其反对称矩阵,
J
i
表示第
i
个航天器的转动惯量,
τ
i
表示第
i
个航天器的控制力矩,矩阵
G(
σ
i
)
的表达式为:
3.
根据权利要求1所述的一种基于强化学习的航天器姿态预设定时间协同控制方法,其特征在于,步骤
(1)
所述采用图论描述成员航天器与领航者以及成员航天器与其邻居航天器之间的通信拓扑关系实现过程如下:航天器编队成员间的通信拓扑结构为无向图,记为其中
N

{n1,

,n
n
}
表示成员航天器集合,是边的集合,
(n
i
,n
j
)
表示航天器
j
与航天器
i
之间可以直接进行信息交互;
A

[a
ij
]
为无向图的加权邻接矩阵,若
(n
i
,n
j
)∈E
,则邻接矩阵元素
a
ij
>0
,否则
a
ij
=0;主从架构的多航天器系统假定存在一个虚拟领航者,设置其编号为0,其状态设置为给定的期望轨迹,若航天器
i
与领航者之间有直接的通信连接,则
a
i0
>0
,否则
a
i0

0。4.
根据权利要求1所述的一种基于强化学习的航天器姿态预设定时间协同控制方法,其特征在于,所述步骤
(2)
实现过程如下:对于航天器
i
,根据其与其邻居航天器对领航者的姿态和速度估计值,设计预设定时间分布式观测器为:
其中,
α0,
α1,
α2,
α3>0
为分布式观测器的设计参数,
p
i
和表示第
i
个航天器对领航者姿态
σ0和速度的估计,
k...

【专利技术属性】
技术研发人员:史晓宁周智刚李建祯赵进
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1