卫星相对相位保持策略模型的建模方法、模型、获取方法技术

技术编号:36903710 阅读:11 留言:0更新日期:2023-03-18 09:23
本发明专利技术涉及航空航天领域,提供一种卫星相对相位保持策略模型的建模方法、模型、获取方法、设备、介质,建模方法包括:S1:获取多组卫星训练状态数据组;S2:得到初始时刻之后所有半长轴控制行为及所对应输出的Q值;S3:获取当前时刻第一卫星与第二卫星的状态;获得半长轴控制行为;S4:得到奖励和下一时刻第一卫星与第二卫星的状态;S5:将卫星组合状态数据组存入经验池中;S6:计算目标值;S7:计算误差;S8:更新Q值;将下一时刻第一卫星与第二卫星的状态作为当前时刻第一卫星与第二卫星的状态;S9:重复S3

【技术实现步骤摘要】
卫星相对相位保持策略模型的建模方法、模型、获取方法


[0001]本专利技术涉及航空航天
,特别是涉及一种基于Nature DQN的卫星相对相位保持策略模型的建模方法、模型、获取方法、设备、介质。

技术介绍

[0002]随着人类航天活动的不断开展,越来越多的遥感卫星为人们的日常生活提供帮助。
[0003]卫星星座在运行过程中通常都要求星座中的各卫星保持一定的相位,由于入轨及运行过程中各种摄动因素的影响,卫星的实际相位与标称相位之间会存在一定的误差,当该误差的量值使星座的性能降低时就应该对卫星的相位进行控制,消除卫星实际相位与标称相位的误差。
[0004]完全自主轨道保持可以有效降低卫星的运行成本,提高卫星应对突发事件的能力。如果能够实现MEO卫星的自主轨道保持,则可以极大地提高星座的工作能力,同时降低维护成本。具有完全自主轨道保持能力的卫星必须具有完全自主的导航与轨道控制。卫星的寿命将主要由其携带的燃料决定,有效的相位控制方法将使卫星的寿命延长。
[0005]现有的技术方法首先通过动力学模型分析了星座中的卫星在轨道运行过程中受到的地球形状和日月引力等各种摄动力的影响所导致的卫星相位变化,然后根据相位偏差与半长轴偏差的关系得出通过调整半长轴可以间接消除相位偏差的结论,然后设计相对相位保持的策略,进而对保持参数进行优化并且计算推进剂的消耗量。现有技术方法通过对卫星在轨道运行过程中受到的各种摄动力进行复杂的建模,然而由于空间受力的复杂性以及卫星本身参数的不确定性,导致无法对卫星进行精确建模,参数多、计算复杂,进而影响卫星相位保持的精度,可能会消耗更多的燃料。
[0006]因此,亟需开发一种基于Nature DQN的卫星相对相位保持策略模型的建模方法、模型、获取方法、设备、介质,降低建模难度,精确计算相对相位保持策略。

技术实现思路

[0007]本专利技术的目的是提供一种卫星相对相位保持策略模型的建模方法、模型、获取方法、设备、介质,对MEO三轴稳定卫星进行相对相位位置保持时不需要进行复杂的建模,不需要考虑空间受力的复杂性以及卫星本身参数的不确定性,强化学习具有很强的行为决策能力,能够得到最优的决策策略,减少卫星燃料的消耗。
[0008]为解决上述技术问题,作为本专利技术的一个方面,提供了一种基于Nature DQN的卫星相对相位保持策略模型的建模方法,包括以下步骤:
[0009]S1:初始化模型,获取多组卫星训练状态数据组,每组卫星训练状态数据组包括初始时刻第一卫星与第二卫星的状态、多个预期轨控时刻和预期轨控次数;第一卫星与第二卫星的状态包括第一卫星与第二卫星的相对相位差;
[0010]S2:向模型中输入一组卫星训练状态数据组的初始时刻第一卫星与第二卫星的状
态,得到初始时刻之后所有半长轴控制行为及所对应输出的Q值;
[0011]S3:获取当前时刻第一卫星与第二卫星的状态,根据贪心策略获得第一卫星或第二卫星执行的半长轴控制行为;
[0012]S4:执行半长轴控制行为,得到下一时刻第一卫星与第二卫星的状态,根据下一时刻第一卫星与第二卫星的状态、相对相位保持策略奖励函数得到奖励;所述相对相位保持策略奖励函数采用公式1:
[0013][0014]其中,r
t
为当前时刻第一卫星或第二卫星进行半长轴控制行为所获得的奖励,Δλ0为标称轨道的第一卫星与第二卫星的相对相位差,Δλ
s
为第一卫星与第二卫星的相对相位差保持阈值,Δλ
t+1
为下一时刻第一卫星与第二卫星的相对相位差,|Δλ
t+1

Δλ0|为当前时刻对第一卫星或第二卫星进行半长轴控制行为后外推到当前时刻的下一时刻第一卫星与第二卫星的相对相位差相对于标称轨道的变化,即当前时刻第一卫星或第二卫星进行半长轴控制行为对第一卫星与第二卫星的相对相位差的影响;t为当前时刻;t0为与当前时刻距离最接近的预期轨控时刻;
[0015]S5:将当前时刻第一卫星与第二卫星的状态、第一卫星或第二卫星执行的半长轴控制行为、奖励和下一时刻第一卫星与第二卫星的状态作为一组卫星组合状态数据组存入经验池中;
[0016]S6:从经验池中取出多组卫星组合状态数据组,根据目标神经网络权值参数计算每个组合卫星状态数据组的目标值;
[0017]S7:根据损失函数计算误差,并更新当前神经网络权值参数;
[0018]S8:根据值函数更新Q值;将下一时刻第一卫星与第二卫星的状态作为当前时刻第一卫星与第二卫星的状态;
[0019]S9:重复执行步骤S3

S8,执行步骤S3

S8的次数等于该组卫星训练状态数据组的预期轨控次数;每重复执行指定迭代次数的步骤S3

S8后,根据当前神经网络权值参数更新目标神经网络权值参数;
[0020]S10:重复执行步骤S2

S9,直到输入完所有卫星训练状态数据组的数据。
[0021]根据本专利技术一示例实施方式,步骤S1中,初始化模型包括定义损失函数。
[0022]根据本专利技术一示例实施方式,模型的输入为第一卫星与第二卫星的状态,输出为第一卫星或第二卫星执行半长轴控制行为后的回报值(Q值)。
[0023]根据本专利技术一示例实施方式,步骤S3中,初始循环时,当前时刻第一卫星与第二卫星的状态为初始时刻第一卫星与第二卫星的状态。
[0024]根据本专利技术一示例实施方式,步骤S3中,所述根据贪心策略获得第一卫星或第二卫星执行的半长轴控制行为的方法包括:第一卫星或第二卫星以第一指定概率随机选择半长轴控制行为、或以第二指定概率执行最大Q值所对应的半长轴控制行为;第一指定概率和第二指定概率之和等于1。
[0025]根据本专利技术一示例实施方式,步骤S6中,所述根据目标神经网络权值参数计算每
个卫星组合状态数据组的目标值方法采用公式3:
[0026][0027]其中,y
j
表示目标值,γ为折扣值,θ

为目标神经网络权值参数,表示一组卫星组合状态数据组中的下一时刻第一卫星或第二卫星执行半长轴控制行为a后的最大Q值,s
j+1
表示一组卫星组合状态数据组中的下一时刻第一卫星与第二卫星的状态,a表示一组卫星组合状态数据组中的当前时刻第一卫星或第二卫星执行的半长轴控制行为,r
j
表示一组卫星组合状态数据组中的奖励。
[0028]根据本专利技术一示例实施方式,步骤S7中,所述损失函数采用公式4:
[0029][0030]其中,y
j
表示目标值,θ为当前神经网络权值参数,Q(s
j
,a
j
;θ)表示一组卫星组合状态数据组中的当前时刻第一卫星或第二卫星执行半长轴控制行为a
j
后的Q值,s
j
表示一组卫星组合状态数据组中的当前时刻第一卫星与第二卫星本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Nature DQN的卫星相对相位保持策略模型的建模方法,其特征在于,包括以下步骤:S1:初始化模型,获取多组卫星训练状态数据组,每组卫星训练状态数据组包括初始时刻第一卫星与第二卫星的状态、多个预期轨控时刻和预期轨控次数;第一卫星与第二卫星的状态包括第一卫星与第二卫星的相对相位差;S2:向模型中输入一组卫星训练状态数据组的初始时刻第一卫星与第二卫星的状态,得到初始时刻之后所有半长轴控制行为及所对应输出的Q值;S3:获取当前时刻第一卫星与第二卫星的状态,根据贪心策略获得第一卫星或第二卫星执行的半长轴控制行为;S4:执行半长轴控制行为,得到下一时刻第一卫星与第二卫星的状态;根据下一时刻第一卫星与第二卫星的状态、相对相位保持策略奖励函数得到奖励;所述相对相位保持策略奖励函数采用公式1:其中,r
t
为当前时刻第一卫星或第二卫星进行半长轴控制行为所获得的奖励,Δλ0为标称轨道的第一卫星与第二卫星的相对相位差,Δλ
s
为第一卫星与第二卫星的相对相位差保持阈值,Δλ
t+1
为下一时刻第一卫星与第二卫星的相对相位差,|Δλ
t+1

Δλ0|为当前时刻对第一卫星或第二卫星进行半长轴控制行为后当前时刻的下一时刻第一卫星与第二卫星的相对相位差相对于标称轨道的变化,即当前时刻第一卫星或第二卫星进行半长轴控制行为对第一卫星与第二卫星的相对相位差的影响;t为当前时刻;t0为与当前时刻距离最接近的预期轨控时刻;S5:将当前时刻第一卫星与第二卫星的状态、第一卫星或第二卫星执行的半长轴控制行为、奖励和下一时刻第一卫星与第二卫星的状态作为一组卫星组合状态数据组存入经验池中;S6:从经验池中取出多组卫星组合状态数据组,根据目标神经网络权值参数计算每个卫星组合状态数据组的目标值;S7:根据损失函数计算误差,并更新当前神经网络权值参数;S8:根据值函数更新Q值;将下一时刻第一卫星与第二卫星的状态作为当前时刻第一卫星与第二卫星的状态;S9:重复执行步骤S3

S8,执行步骤S3

S8的次数等于该组卫星训练状态数据组的预期轨控次数;每重复执行指定迭代次数的步骤S3

S8后,根据当前神经网络权值参数更新目标神经网络权值参数;S10:重复执行步骤S2

S9,直到输入完所有卫星训练状态数据组的数据。2.根据权利要求1所述的基于Nature DQN的卫星相对相位保持策略模型的建模方法,其特征在于,步骤S3中,初始循环时,当前时刻第一卫星与第二卫星的状态为初始时刻第一卫星与第二卫星的状态。3.根据权利要求1所述的基于Nature DQN的卫星相对相位保持策略模型的建模方法,
其特征在于,步骤S3中,所述根据贪心策略获得第一卫星或第二卫星执行的半长轴控制行为的方法包括:第一卫星或第二卫星以第一指定概率随机选择半长轴控制行为、或以第二指定概率执行最大Q值所对应的半长轴控制行为;第一指定概率和第二指定概率之和等于1。4.根据权利要求1所述的基于Nature DQN的卫星相对相位保持策略模型的建模方法,其特征在于,步骤S6中,所述根据目标神经网络权值参数计算每个卫星状态数据组的目标值的方法采用公式3:其中,y
j
表示目标值,γ为折扣值,θ

为目标神经网络权值参数,表示一组卫星组合状态数据组中下一时刻第一卫星或第二卫星执行半长轴控制行为a后的最大Q值,s
j+1
表示一组卫星组合状态数据组中的下一时刻第一卫星与第二卫星的状态,a表示第一卫星或第二卫星执行的半...

【专利技术属性】
技术研发人员:吴琳琳吴新林何镇武吴凌根陈倩茹王丽颖张琳娜
申请(专利权)人:北京航天驭星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1