考虑弹跳的小天体表面定点附着轨迹规划方法技术

技术编号:27141068 阅读:32 留言:0更新日期:2021-01-27 21:12
本发明专利技术公开的考虑弹跳的小天体表面定点附着轨迹规划方法,属于深空探测技术领域。本发明专利技术实现方法为:使用深度确定性策略梯度算法,根据探测器初始状态的可行空间训练智能体,进而对探测器的碰撞前的姿态信息进行规划;为了降低训练难度,将定点附着任务分为接近段和制动段两个阶段分别训练智能体;根据探测器当前的状态,使用训练好的智能体给出探测器每次碰撞前的姿态信息,并使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹,完成探测器到小天体表面目标点的精确附着。本发明专利技术通过对探测器与小天体表面碰撞前的姿态序列进行规划,解决小天体表面精确附着的弹跳轨迹规划问题。迹规划问题。迹规划问题。

【技术实现步骤摘要】
考虑弹跳的小天体表面定点附着轨迹规划方法


[0001]本专利技术涉及一种轨迹规划方法,尤其涉及小天体表面定点附着的弹跳轨迹规划方法,属于深空探测


技术介绍

[0002]随着航天技术的发展,小天体探测成为航天领域的热点。为了获得小天体的精确数据,开发利用小天体资源,需要进行表面附着探测。在探测器着陆末段,若预测到存在位置偏差,则需调整运动轨迹来精确到达目标位置。在小天体弱引力的物理环境下,着陆轨迹易发生反弹,但利用反弹也可以实现小天体表面的弹跳移动。若能利用弹跳轨迹修正末段位置偏差,则将大幅提升小天体附着精度和探测任务的灵活性。如何针对不确定初始条件规划弱引力下的弹跳轨迹,则是实现精确附着的关键。
[0003]在已发展的小天体表面跳跃式探测器移动轨迹规划中,先技术(参见郭林杰.基于深度强化学习的跳跃式小行星探测器规划策略研究[D].2019.)使用强化学习算法,规划碰撞时探测器的姿态和角速度,使探测器通过连续跳跃的方式进行远距离转移。但该技术存在不足,一方面,探测器在目标点处存在水平速度,无法实现附着到目标点的要求;另一方面,所规划的轨迹缺少内环控制,没有在内环使用控制力矩对规划好的姿态和角速度进行跟踪。为了完成探测器精确附着到目标位置的任务,需要将终端速度约束与内环控制考虑在内,设计一种小天体表面定点附着的弹跳轨迹规划方法。

技术实现思路

[0004]针对弱引力小天体表面的附着轨迹规划问题,本专利技术公开的考虑弹跳的小天体表面定点附着轨迹规划方法要解决的问题是:考虑探测器弹跳运动,通过对探测器与小天体表面碰撞前的姿态序列进行规划,实现探测器到小天体表面目标点的精确附着。
[0005]本专利技术是通过下述技术方案实现的。
[0006]本专利技术公开的考虑弹跳的小天体表面定点附着轨迹规划方法,使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,根据探测器初始状态的可行空间训练智能体(Agent),进而对探测器的碰撞前的姿态信息进行规划;为了降低训练难度,将定点附着任务分为接近段和制动段两个阶段分别训练智能体:在接近段,探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围;在制动段,探测器在目标点附近以弹跳方式进行制动,在消除剩余水平速度的同时将探测器的位置控制在一定范围内;根据探测器当前的状态,使用训练好的智能体给出探测器每次碰撞前的姿态信息,并使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹。
[0007]本专利技术公开的考虑弹跳的小天体表面定点附着轨迹规划方法,包括如下步骤:
[0008]步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段,针对每一阶段探测器碰撞前的姿态和角速度,采用深度确定性策略梯度算法,选取状态空间与动
作空间,搭建探测器弹跳运动神经网络模型。
[0009]步骤一的具体实现方法为:
[0010]探测器的动力学方程如下:
[0011][0012]其中,m为探测器质量,g为小天体重力加速度,(x,y)为探测器位置,I为探测器转动惯量,2l为探测器边长,α为探测器的姿态角,ω为探测器的角速度,F
t
为地面对探测器水平方向向作用力,F
n
为地面对探测器竖直方向作用力,T
c
为探测器控制力矩。
[0013]通过对探测器动力学方程的分析可知,探测器跳跃的高度和速度是由发生碰撞时地面给探测器的力决定的;由连续碰撞模型可知,探测器所受的水平方向力F
t
和竖直方向力F
n
是由碰撞时探测器的姿态角α和角速度ω决定的。因此,使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法时,状态空间s选取为探测器的位置r和速度v,动作空间a选取为探测器碰撞时的姿态角α和角速度ω。在一次跳跃过程中,探测器在空中的位置和速度信息总量是不发生变化的,因此状态空间简化为碰撞前探测器达到的最高点位置信息(x
h
,y
h
)和水平速度信息v
xh

[0014]s=(x
h
,y
h
,v
xh
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0015]a=(α,ω)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0016]搭建两组神经网络用于两阶段智能体A1和A2的训练;两组神经网络结构相同,包含Actor网络和Critic网络。
[0017]Actor网络用于根据当前状态选取执行的动作,包含两个隐藏层和一个输出层;Critic网络用于根据状态和动作来评估选取的动作,包含两个隐藏层和一个输出层,Actor网络给出的动作在第二个隐藏层处加入Critic网络。
[0018]步骤二、针对探测器弹跳的接近段和制动段两个阶段的不同要求,分别设计奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到两个阶段的智能体A1和A2,用于给出两阶段姿态序列。
[0019]步骤二的具体实现方法为:
[0020]步骤2.1针对接近段设计奖赏函数,训练得到智能体A1,用于给出第一阶段姿态序列。
[0021]探测器在接近段由初始位置向目标点运动,直到探测器跳跃最高点的水平位置x在目标点x
f
附近范围[x
f-Δx1,x
f
+Δx1]内,同时水平速度大小降低到[0,v1]内;
[0022]接近段探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围,因此结束条件为:在一定弹跳次数内探测器跳跃最高点水平位置达到目标范围,即
[0023]|x-x
f
|≤Δx1ꢀꢀꢀꢀꢀꢀꢀ
(4)
[0024]其中,x为探测器当前跳跃最高点水平位置。
[0025]接近段结束时,奖赏值设计方法为:完成任务时给予一个大值奖赏,同时对完成任
务时的水平速度进行评估,速度越小,给予越大的奖赏,速度过大则给予负值奖赏,接近段结束奖赏值R为
[0026][0027]其中,x和v
x
分别为完成任务时跳跃最高点的位置横坐标和水平速度,R1和R2分别为评估位置和速度的大值奖赏。
[0028]此外,接近段过程中,考虑以下三个因素赋予奖赏值:
[0029]1)弹跳次数:设置每步的过程奖赏为负值,期望智能体通过最少的动作次数完成任务,同时该奖赏值与探测器与目标点当前的水平距离相关,距离越远,惩罚越大。每步的奖赏值为
[0030][0031]其中,x
k
为碰撞前探测器最高点位置横坐标,R0为一个较小的正值,p为参数。
[0032]2)弹跳运动方向:若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反,则碰撞结果是探本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.考虑弹跳的小天体表面定点附着轨迹规划方法,其特征在于:包括如下步骤,步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段,针对每一阶段探测器碰撞前的姿态和角速度,采用深度确定性策略梯度算法,选取状态空间与动作空间,搭建探测器弹跳运动神经网络模型;步骤二、针对探测器弹跳的接近段和制动段两个阶段的不同要求,分别设计奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到两个阶段的智能体A1和A2,用于给出两阶段姿态序列;步骤三、智能体A1和A2基于探测器当前的状态,给出探测器每次碰撞前的姿态信息,在此基础上,设计滑模面,使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹,完成探测器到小天体表面目标点的精确附着。2.如权利要求1所述的考虑弹跳的小天体表面定点附着轨迹规划方法,其特征在于:步骤一的具体实现方法为,探测器的动力学方程如下:其中,m为探测器质量,g为小天体重力加速度,(x,y)为探测器位置,I为探测器转动惯量,2l为探测器边长,α为探测器的姿态角,ω为探测器的角速度,F
t
为地面对探测器水平方向向作用力,F
n
为地面对探测器竖直方向作用力,T
c
为探测器控制力矩;通过对探测器动力学方程的分析可知,探测器跳跃的高度和速度是由发生碰撞时地面给探测器的力决定的;由连续碰撞模型可知,探测器所受的水平方向力F
t
和竖直方向力F
n
是由碰撞时探测器的姿态角α和角速度ω决定的;因此,使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法时,状态空间s选取为探测器的位置r和速度v,动作空间a选取为探测器碰撞时的姿态角α和角速度ω;在一次跳跃过程中,探测器在空中的位置和速度信息总量是不发生变化的,因此状态空间简化为碰撞前探测器达到的最高点位置信息(x
h
,y
h
)和水平速度信息v
xh
;s=(x
h
,y
h
,v
xh
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)a=(α,ω)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)搭建两组神经网络用于两阶段智能体A1和A2的训练;两组神经网络结构相同,包含Actor网络和Critic网络;Actor网络用于根据当前状态选取执行的动作,包含两个隐藏层和一个输出层;Critic网络用于根据状态和动作来评估选取的动作,包含两个隐藏层和一个输出层,Actor网络给出的动作在第二个隐藏层处加入Critic网络。3.如权利要求2所述的考虑弹跳的小天体表面定点附着轨迹规划方法,其特征在于:步骤二的具体实现方法为,步骤2.1针对接近段设计奖赏函数,训练得到智能体A1,用于给出第一阶段姿态序列;探测器在接近段由初始位置向目标点运动,直到探测器跳跃最高点的水平位置x在目
标点x
f
附近范围[x
f-Δx1,x
f
+Δx1]内,同时水平速度大小降低到[0,v1]内;接近段探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围,因此结束条件为:在一定跳跃次数内探测器跳跃最高点水平位置达到目标范围,即|x-x
f
|≤Δx1ꢀꢀꢀꢀꢀꢀꢀ
(4)其中,x为探测器当前跳跃最高点水平位置;接近段结束时,奖赏值设计方法为:完成任务时给予一个大值奖赏,同时对完成任务时的水平速度进行评估,速度越小,给予越大的奖赏,速度过大则给予负值奖赏,接近段结束奖赏值R为其中,x和v
x
分别为完成任务时跳跃最高点的位置横坐标和水平速度,R1和R2分别为评估位置和速度的大值奖赏;此外,接近段过程中,考虑以下三个因素赋予奖赏值:1)弹跳次数:设置每步的过程奖赏为负值,期望智能体通过最少的动作次数完成任务,同时该奖赏值与探测器与目标点当前的水平距离相关,距离越远,惩罚越大;每步的奖赏值为其中,x
k
为碰撞前探测器最高点位置横坐标,R0为一个较小的正值,p为参数;2)弹跳运动方向:若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反,则碰撞结果是探测器朝向目标点运动;运动方向奖赏值为R=-q
·
sgn(x
k+1-x
f
)
·
sgn(v
x,k+1
)...

【专利技术属性】
技术研发人员:梁子璇吕畅崔平远朱圣英徐瑞
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1