当前位置: 首页 > 专利查询>天津大学专利>正文

基于近端策略优化的航天器多空间碎片避撞自主决策方法技术

技术编号:37602934 阅读:20 留言:0更新日期:2023-05-18 11:54
本发明专利技术公开了基于近端策略优化的航天器多空间碎片避撞自主决策方法,所述方法包括以下步骤:步骤一:根据地心惯性坐标系下构建航天器的空间动力学模型;步骤二:根据航天器与空间碎片轨道动力学构建碰撞概率数学模型;步骤三:基于碰撞时间的空间碎片仿真参数生成;步骤四:对碰撞概率与能量损耗构建奖励函数数学模型;步骤五所述航天器避撞自主决策训练系统是在当前状态下选择最优动作,通过连续决策使得航天器能够以最佳状态成功规避空间碎片;步骤六:离线训练航天器避撞自主决策模型;步骤七:训练好的航天器避撞自主决策模型应用于在线航天器多个空间碎片避撞场景中;本发明专利技术以减少生成最优规避机动的时间消耗,提升航空器的能源利用率。的能源利用率。的能源利用率。

【技术实现步骤摘要】
基于近端策略优化的航天器多空间碎片避撞自主决策方法


[0001]本专利技术涉及航天器避撞领域,具体涉及基于近端策略优化的航天器多空间碎片避撞自主决策方法。

技术介绍

[0002]随着全球航天事业快速发展,世界范围内卫星发射次数也是逐年攀升,全世界先后有超过三十多个国家和地区相继进行了发射任务。进入21世纪,出于国家军事战略安全的需要,世界各国进行卫星发射的任务越来越紧迫,发射活动也愈发频繁。然而由于宇宙空间资源的有限,特别是近地空间以及地球同步轨道空间的有限性,导致地球附近的空间碎片数量迅速攀升,这些无效载荷严重污染了地球周围的空间环境,对在轨航天器的安全运行、卫星任务执行以及火箭发射的窗口期都产生了广泛且严重影响。现有的空间碎片避撞问题研究多是基于简化的相对运动学模型,并且采用离线的数学优化方法得出最优机动量。但传统的高斯伪谱法、遗传算法等求解速度无法满足航天器在轨实时避障决策需求,工程上也很难为空间飞行器提供瞬时大推力,所以有必要对有限推力空间飞行器在轨实时自主避障机动决策进行研究。
[0003]因此,设计一种基于近端策略优化的航天本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于近端策略优化的航天器多空间碎片避撞自主决策方法,其特征在于,所述方法包括以下步骤:步骤一:根据地心惯性坐标系下构建航天器的空间动力学模型为:其中,r是航天器空间位置矢量;μ为地球引力常数,其值为3.986
×
105km3/s2;f
t
为发动机推力加速度矢量,本发明中采用脉冲机动方式,机动总量设置为F
max
;f
p
是作用在航天器上的J2摄动加速度矢量;步骤二:根据航天器与空间碎片轨道动力学构建碰撞概率数学模型;步骤三:基于碰撞时间的空间碎片仿真参数生成;步骤四:对碰撞概率与能量损耗构建奖励函数数学模型;步骤五:根据近端策略优化算法建立航天器避撞自主决策训练系统;所述航天器避撞自主决策训练系统是在当前状态下选择最优动作,通过连续决策使得航天器能够以最佳状态成功规避空间碎片;步骤六:将步骤一、步骤二、步骤三和步骤四中所建立的模型应用在步骤五系统中,离线训练航天器避撞自主决策系统;步骤七:将步骤六中训练好的航天器避撞自主决策系统应用于在线航天器多个空间碎片避撞场景中,得到成功的自主规避的优化机动轨迹。2.根据权利要求1所述的基于近端策略优化的航天器多空间碎片避撞自主决策方法,其特征在于,所述步骤二构建碰撞概率数学模型,其具体过程为:在每个时间步长中获取当前时刻的航天器和空间碎片在地心坐标系下的位置和速度;根据轨道动力学方程向前传播得到航天器与空间碎片最接近时刻以及在最接进时刻的位置和速度;将航天器与空间碎片最接近时刻以及在最接进时刻的位置和速度转换为在相对坐标系下得到相对位置和相对速度,计算两者的联合位置误差协方差;选取二维高斯概率密度函数的无穷级数首项作为概率积分的近似按照如下公式计算出在最接近时刻的碰撞概率数学模型P
c
;其中,μ
x
和μ
y
分别为航天器与空间碎片在相遇坐标系下x轴和y轴坐标,σ
x
和σ
y
分别为航天器与空间碎片在相遇坐标系下x轴和y轴上的联合位置误差标准差,r
A
为航天器与空间碎片半径之和。3.根据权利要求1所述的基于近端策略优化的航天器多空间碎片避撞自主决策方法,其特征在于,所述步骤三基于碰撞时间的空间碎片仿真参数生成,其具体过程为:根据航天器初始时刻的状态进行一定时间的轨道传播获得空间碎片碰撞时间t
c
;根据空间碎片碰撞时间t
c
时刻航天器的位置R
s
和速度V
s
,加入一定的随机扰动R
ε
和V
ε
;在此基础上,随机选择一个轨道倾角以获得最终的空间碎片的位置R

d
和速度V
d

;根据空间碎片返回初始时间获得空间碎片的初始位置R
d
和速度V
d

4.根据权利要求1所述的基于近端策略优化的航天器多空间碎片避撞自主决策方法,其特征在于,所述步骤四基于碰撞概率与能量损耗的奖励函数数学模型为:其中,r
p
为碰撞概率的奖励值,P
sum
为多个空间碎片的总的碰撞概率,其计算公式为P
i
为单个空间碎片的碰撞概率;r
c
为能量损耗奖励,F
max
为总能量值,F
ac
为累计能量消耗值,F
sc
为单次机动能量消耗值,F
smax
为单次机动最大能量消耗值;r
s
为步长奖励;r
t
为终端条件奖励,t
step
为环境步数,coll
flag
为碰撞发生标志位。5.根据权利要求1所述的基于近端策略优化的航天器多空间碎片避撞自主决策方法,其...

【专利技术属性】
技术研发人员:穆朝絮刘硕刘朝阳
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1