深度强化学习SAC算法的小行星柔性探测器智能控制方法技术

技术编号:38157085 阅读:16 留言:0更新日期:2023-07-13 09:26
本发明专利技术公开的基于深度强化学习SAC算法的小行星柔性探测器智能控制方法,属于航天器制导与控制领域。本发明专利技术实现方法为:建立柔性探测器结构结构简化模型,通过引入二阶引力势函数模型描述小行星弱引力场模型,构建柔性探测器姿态

【技术实现步骤摘要】
深度强化学习SAC算法的小行星柔性探测器智能控制方法


[0001]本专利技术涉及一种基于深度强化学习SAC(Soft Actor

Critic)算法的小行星柔性探测器智能控制方法,属于航天器制导与控制领域。

技术介绍

[0002]小行星探测是航天领域的一个关键研究方向,对小行星成分的分析有助于科学家研究宇宙起源等重大科学问题,小行星探测器的发展也有助于推进宇宙资源开发、星际航行等关键科学技术的进步。因此,近年来,很多国家都实施了小行星探测任务,其中,具有代表性的是欧洲、美国和日本的小行星采样返回任务。欧洲太空局的“菲莱号”小行星探测器计划在67P彗星上着陆,但由于设备故障,着陆时发生多次弹跳,最终着陆位置偏离了任务的目标位置,任务只取得部分成功。日本利用“隼鸟一号”和“隼鸟二号”小行星探测器成功实施了两次小行星采样返回任务。美国的“欧西里斯

雷克斯”探测器也成功在“贝努”小行星上进行了采样。相较于飞越和环绕探测,在小行星表面着陆对研究小行星具有更高的科学价值。但由于小行星具有不规则的弱引力场且形貌崎岖复杂本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习SAC算法的小行星柔性探测器智能控制方法,其特征在于:包括如下步骤,步骤一:建立柔性探测器模型,采用线性弹簧模型描述柔性气囊变形产生的柔性作用力,构建柔性探测器的简化模型;通过引入二阶引力势函数模型描述小行星弱引力场模型,推导刚性控制节点在小行星固连坐标系下的轨道动力学方程,根据轨道动力学方程计算刚性控制节点位置,并根据所述刚性控制节点位置实时计算航天器整体姿态,构建柔性探测器姿态

轨道耦合的动力学模型;所述柔性探测器模型由柔性气囊和刚性控制节点组成;步骤二:采用基于深度强化学习的演员

评论家神经网络,与姿态

轨道耦合动力学方程进行交互,通过神经网络输出推力器的指令推力值与推力器偏角,并基于SAC算法设计奖励函数与代价函数进行神经网络的训练,基于训练完成的神经网络构建起小行星柔性探测器智能控制器;步骤三:通过步骤二得到的所述小行星柔性探测器智能控制器,使柔性探测器能够有效应对由于柔性材料复杂变形导致的柔性探测器结构参数的随机变化,实现高精度跟踪目标任务的期望附着轨道。2.如权利要求1所述的基于深度强化学习SAC算法的小行星柔性探测器智能控制方法,其特征在于:步骤一实现方法为,步骤1.1:建立由柔性气囊连接多刚性控制节点的柔性探测器模型;与单刚体探测器不同,柔性探测器由柔性气囊连接多个刚性控制节点组成,根据实际小行星探测任务的需求,将n个刚性控制节点和n个柔性气囊构成正n边形构型的探测器;相邻两个刚性控制节点之间均由一个柔性气囊连接;所述柔性气囊为密闭式缓冲气囊,用于吸收着陆时碰撞产生的能量,避免刚性控制节点直接与小行星表面发生接触碰撞导致探测器反弹逃逸或星上载荷受损,并在着陆后起到支撑作用;所述刚性控制节点由刚性探测器平台、推力器、敏感器、采样装置、气囊收纳舱及其他有效载荷构成;所述刚性探测器平台用于搭载有效载荷;所述推力器用于提供推力,进行探测器的姿态

轨道耦合运动控制;所述敏感器用于测量刚性控制节点与小行星表面的距离和速度;所述采样装置用于稳定附着后在小行星表面采集样品;所述气囊收纳舱用于收纳未充气状态的柔性气囊;步骤1.2:采用线性弹簧模型描述柔性气囊变形产生的柔性作用力,构建柔性探测器模型的简化模型;在所述柔性探测器附着过程中,柔性气囊会发生形变,各刚性控制节点之间随之产生柔性作用力;所述柔性作用力用线性弹簧产生的弹性力进行等效,即实现柔性探测器模型简化,将柔性探测器的初始构型等效成一个正n边形,各刚性控制节点之间由线性弹簧部件连接;第i个刚性控制节点和第j个刚性控制节点之间的柔性作用力如公式(1)所示:其中,F
ij
表示柔性作用力的大小,l
ij
和l0分别表示两刚性控制节点之间的实际相对距离和初始相对距离,k表示等效弹性系数,n表示刚性控制节点的数量;各个刚性控制节点简化为质量点;由此得到柔性探测器的简化模型;步骤1.3:通过引入二阶引力势函数模型描述小行星弱引力场模型,推导刚性控制节点在小行星固连坐标系下的轨道动力学方程,根据轨道动力学方程计算刚性控制节点位置,
根据所述刚性控制节点位置实时计算航天器整体姿态,构建柔性探测器姿态

轨道耦合的动力学方程;步骤1.3.1:为准确建立柔性探测器姿态

轨道耦合运动动力学模型,构建以下三个坐标系,并建立小行星与柔性探测器每个刚性控制节点在日心惯性坐标系下的动力学方程;

日心惯性坐标系OXYZ;该坐标系原点固定在太阳质心处,OX轴在小行星轨道平面内指向春分点方向,OZ轴沿小行星轨道运动的角速度方向,OY轴由右手螺旋法则确定;

小行星固连坐标系oxyz;该坐标系原点固定在小行星质心处,ox轴、oy轴、oz轴分别与小行星的最大、中间、最小惯量主轴重合;

本体固连坐标系o
bi
x
bi
y
bi
z
bi
;该坐标系原点固定在第i个刚性控制节点的质心处,o
bi
x
bi
轴在初始构型平面内沿径向指向远离探测器整体质心的方向,o
bi
z
bi
轴指向初始构型平面的法线方向,o
bi
y
bi
轴由右手螺旋法则确定;在推导各刚性控制节点在小行星弱引力场内运动微分方程过程中,柔性探测器附着过程所需任务时间与小行星的轨道周期相比非常小,因此忽略小行星的公转运动;在日心惯性系中,小行星的轨道动力学方程表示为:其中,r1是由太阳质心指向小行星质心的位置矢量,是其二阶导数,μ代表太阳引力常数;通过式(2)描述小行星围绕太阳的轨道运动规律;在日心惯性系中,柔性探测器中每一个刚性控制节点的轨道动力学方程表示为:其中,r
si
是由太阳质心指向该控制器质心的位置矢量,是其二阶导数,g
ai
是由小行星引力作用产生的引力加速度,a
ci
是由控制推力作用产生的控制推力加速度,a
uni
是由未知扰动作用产生的未知加速度,a
ei
是由柔性探测器的刚性控制节点间柔性作用力产生的弹力加速度;通过式(3)描述柔性探测器中每个刚性控制节点围绕太阳的轨道运动规律;步骤1.3.2:引入二阶引力势函数模型,推导刚性控制节点在小行星固连坐标系下的轨道动力学模型,根据轨道动力学方程计算刚性控制节点位置;为了描述小行星的不规则弱引力场,控制过程采用小行星二阶引力势函数模型表达式为:其中,ψ,θ为引力场中特定位置相对于小行星的经纬度角,R
a
为小行星近似椭球体最大半长轴,μ
a
为小行星引力系数,C
20
和C
22
为小行星椭球体调谐项系数,r为引力场中特定位置矢量的模长;由小行星固连坐标系下的位置坐标与经纬度的转换关系
将式(5)代入式(4)并对三轴位置分量求偏导数,得到小行星引力加速度表达式如下所示:由于小行星以及柔性探测器与太阳之间的距离非常远,小行星与柔性附着探测器之间的距离又很近,故将柔性探测器刚性控制节点与太阳之间的距离等效为小行星与太阳之间的距离,即:r
si
≈r1,则用式(3)与式(2)做差,得到:定义日心惯性系中小行星与柔性探测器的第i个刚性控制节点的之间相对位置矢量为:ρ
si
=r
si

r1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)对式(8)求二阶导数并代入式(7)中,得到由于小行星固连坐标系以角速度ω
o
=[0 0 ω
o
]
T
进行自转,根据固定坐标系与旋转坐标系之间的相对导数关系,式(9)进一步表示为其中,ρ
i
为小行星固连坐标系中柔性探测器第i个刚性控制节点的位置矢量;将式(10)代入式(9),得到式中,ρ
i
=[x
i y
i z
i
]
TTTT
ω
o
=[0 0 ω
o
]
T
由此得第i个刚性控制节点的轨道动力学方程如式(12)所示
给定刚性控制节点的初始状态和控制输入,对式(12)进行数值积分求解,即获得第i个刚性控制节点在小行星固连坐标系下的位置;步骤1.3.3:根据刚性控制节点位置实时计算航天器整体姿态,构建柔性探测器姿态

轨道耦合的动力学方程;柔性探测器整体的轨道运动用柔性探测器质心的运动描述;柔性探测器质心ρ
m
的位置根据各个刚性控制节点的位置实时获得:其中,m
i
表示第i个刚性控制节点的质量;质心的速度通过质心位置对时间求导获得:v
m
=dρ
m
/dt;由于柔性材料在附着过程中会产生的复杂的柔性变形,因此无法利用描述刚体航天器姿态的方法来描述柔性探测器的姿态;定义由编号为1、[n/3]+1和第2[n/3]+1的三个刚性控制节点质心的连线构成的平面为柔性探测器的姿态基准面;其中,用[N]表示N的整数部分;定义由柔性探测器质心指向柔性探测器上表面的法向矢量与小行星固连坐标系oz轴的夹角φ为面外姿态角,柔性探测器附着初始时刻朝向太空的面为上表面;定义基准面绕着基准面的正法向矢量转过的角度θ为面内姿态角;两个姿态角θ、φ通过所述三个刚性控制节点质心位置实时计算得到,计算公式为:其中,ρ1(t0)和ρ
m
(t0)为附着初始时刻刚性控制节点1和探测器质心的位置矢量;在附着过程中,柔性探测器利用携带的推力器通过喷出工质产生推力来跟踪规划得到的期望轨道,同时保持柔性探测器姿态稳定,从而实现柔性探测器稳定附着;刚性控制节点i配置两个推力器;一个推力器的推力方向指向探测器的上表面,能够在预定大小的空间锥内摆动,利用该推力矢量与基准面指向上表面的法向矢量的夹角α
i
和该推力矢量在基准面内投影与探测器质心指向第i个刚性控制节点质心的矢量的夹角β
i
来描述该推力器产生推力相对于基准面的方向,推力大小为T
i1
;另外一个推力器方向固定,推力方向与基准面指向下表面的法向矢量同向,推力大小为T
i2
;刚性控制节点i的两个推力器产生的推力合力在小行星固连坐标系下表示为:
根据式(15),刚性控制节点产生推力的方向受到探测器整体姿态的影响,同时推力也对柔性探测器轨道以及姿态产生控制,所以柔性探测器附着小行星的控制是一个姿轨控复杂耦合的过程,推力对刚性控制节点产生的控制加速度表示为:a
ci
=T
ci
/m
i
;根据上述式(12)(13)(14)(15)建立柔性探测器姿态

轨道耦合的动力学方程。3.如权利要求2所述的基于深度强化学习SAC算法的小行星柔性探测器智能控制方法,其特征在于:步骤二实现方法为,步骤2.1:采用基于深度强化学习的演员

评论家神经网络,与姿态

轨道耦合动力学方程进行交互,令神经网络输出推力器的指令推力值与推力器偏角;步骤2.1.1:建立基于深度强化学习的演员

评论家神经网络;一个基于强化学习的智能控制系统包含智能体(agent)和环境(environment)两个部分;智能体就是智能控制系统中的控制器,其具有学习和决策的能力;环境就是智能控制系统中的控制对象;智能体通过和环境的不断交互从而对控制策略进行学习,得到实现控制目标的最优控制策略,所述过程也称为对智能体的训练;训练的过程采用马尔科夫决策过程(Markov decision process,MDP)进行描述;MDP通常由一个四元组构成,表示为:<S,A,P,R>,其中,S表示环境状态的集合,A表示智能体动作的集合,P为环境的状态转移概率,而R表示奖励函数;在训练过程中的任意t时刻,智能体感知环境的状态S
t
∈S,并通过一个动作A
t
∈A,使环境按照概率P转移到下一个状态S
t+1
∈S,并得到环境的一个潜在奖励R
t
;智能体具有两个重要的功能组成部分,分别是根据状态输入决策动作输出的策略Π,以及根据状态和奖励值对当前策略进行评价的评估Q;智能体中评估的功能就是通过对当前策略获得的长期累积奖励进行估计从而评价当前策略的质量并对策略进行更新;对长期累计奖励的期望定义为值函数;值函数有两种,分别为状态值函数(state value function)和状态

动作值函数(state

action value function);状态值函数V
Π
(S)代表智能体在环境的某一状态S
t
=S,根据策略Π决策发生动作时,获得的长期累积奖励的期望:V
Π
(S)=E[G
t
|S
t
=S]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
...

【专利技术属性】
技术研发人员:翟光孙一勇郑鹤鸣李杰刘泽亚
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1