当前位置: 首页 > 专利查询>郑州大学专利>正文

一种低轨星座中基于强化学习的星地测控链路规划方法技术

技术编号:37068088 阅读:13 留言:0更新日期:2023-03-29 19:45
本发明专利技术提出了一种低轨星座中基于强化学习的星地测控链路规划方法,包括:考虑低轨巨型星座星地链路规划问题,满足星地可见约束、卫星链路数量约束、天线资源约束和变量可行域限制,建立最大化资源利用率和最小化切换次数的多目标优化模型;将星座整个运行周期的链路规划问题解耦成每个离散时间片内链路规划问题,采用深度强化学习中的深度Q网络算法求解多目标优化模型,完成最优的巨型星座星地链路规划决策,智能体根据每次分配时的可视卫星状态,选择最佳卫星建立链路完成星地测控链路规划。本发明专利技术利用强化学习实现智能体与环境的交互,优化星座测控过程中星地链路的切换次数,提高地面站天线资源的利用率,实现星地链路快速灵活高效的规划。速灵活高效的规划。速灵活高效的规划。

【技术实现步骤摘要】
一种低轨星座中基于强化学习的星地测控链路规划方法


[0001]本专利技术涉及低轨卫星移动通信的
,尤其涉及一种低轨星座中基于强化学习的星地测控链路规划方法,当利用地面中心对低轨星座进行测量和控制时,使用深度强化学习进行星地链路规划分配。

技术介绍

[0002]卫星移动通信基本不受地理条件限制,可以覆盖海洋、沙漠和一些极端地理条件的地区,与当前火热的5G通信优势互补,形成天地一体化的通信网络格局,在未来的6G通信中也将扮演重要角色,逐渐成为通信领域不可或缺的组成部分。相比于高轨卫星,低轨卫星具有传输时延短,传输损耗低和高带宽的特点,在进行用户通信时更加有优势。从铱星开始,低轨卫星通信系统逐渐走向大规模、巨型化以及多功能一体化。以美国SpaceX公司为代表的技术先驱已率先全面启动天基互联网建设。全球计划部署巨型低轨星座数量多达18个以上。我国也正在推进低轨巨型星座的规划和部署。
[0003]卫星测控技术是对低轨巨型星座中的卫星进行运行轨道以及位置的跟踪、运行姿态以及星上设备状态的测量监视和对卫星异常工作状况发生后的修正与控制。卫星测控技术是低轨巨型星座保持正常运行、增加可靠性、延长运行寿命的重要手段。低轨星座测控是对卫星在轨运行整个生命周期的管控,测控目标多、测控时间长,阶段多,大量的卫星也会导致测量过程繁琐,同时管控效率要求高,现有的测控模式和设施无法满足供需平衡。卫星测控需要卫星与地面测控站间建立相应的馈电链路使地面站可以捕捉到卫星的运行状态,而低轨卫星由于其高速移动的特点,星地可见窗口时间短、变化快,与地面测控站的连接时长最高仅为十多分钟,链路切换频繁,过多的切换会导致过大的信令开销和中断率,针对低轨星座的卫星的测控切换管理十分重要,因此需要设计一种灵活高效的星地测控链路规划方法,对星座内所有卫星整个运行周期内不同时间段所连接的地面测控中心进行统一的规划或选择,使得星座测控过程开销更小,更加稳定。
[0004]现有的低轨星座星地测控链路规划方法大多考虑小型低轨星座,以及较少的地面测控站资源,并多采用启发式算法,然而低轨巨型星座卫星数量成倍上升,地面站资源也更多,会具有更强烈的资源竞争,更加复杂的链路规划管理,传统启发式算法的性能受到极大挑战,而且难以解决由于卫星及测控站增多所带来的维度过高的问题,从而导致规划的效果大幅下降。
[0005]因此,亟需一种新的针对巨型星座的星地测控链路规划方法解决上述问题。

技术实现思路

[0006]针对现有星地链路规划方法面对大规模星座和地面测控站时效率低、效果差,且性能低、鲁棒性差的技术问题,本专利技术提出一种低轨星座中基于强化学习的星地测控链路规划方法,根据星地可见窗口构建学习环境,利用强化学习实现智能体与环境的交互,训练链路规划模型,从而优化星座测控过程中星地链路的切换次数,提高地面站天线资源的利
用率,实现星地链路快速灵活高效的规划。
[0007]为了达到上述目的,本专利技术的技术方案是这样实现的:一种低轨星座中基于强化学习的星地测控链路规划方法,其特征在于,包括:
[0008]考虑低轨巨型星座星地链路规划问题,同时满足星地可见约束、卫星链路数量约束、天线资源约束和变量可行域限制,建立最大化资源利用率和最小化切换次数的多目标优化模型;
[0009]将星座整个运行周期的链路规划问题解耦成每个离散时间片内链路规划问题,采用深度强化学习中的深度Q网络算法求解多目标优化模型以完成最优的巨型星座星地链路规划决策,智能体根据每次分配时的可视卫星状态,做出最佳动作,选择最佳卫星建立链路从而完成星地测控链路规划。
[0010]优选地,所述星地链路规划问题中包含星座运行周期、多颗卫星以及多个地面测控站,整个链路规划周期为T被划分为K个时间片,每个时间片t
k
的大小均为T/K,时间片集合为{t
k
|k=1,2,3,...,K};设地面测控站的数量为M个,地面测控站集合G={g
i
|i=1,2,3,...,M},对于每一个地面测控站g
i
,设其拥有L个天线资源,即可以同时与L颗卫星同时建立测控链路;天线集合为An={a
j
|j=1,2,3,...,L},a
l
表示第l根天线;设整个低轨星座由N颗卫星组成,卫星集合定义为S={s
l
|l=1,2,3,...,N},s
l
表示第l颗卫星;
[0011]在划分的每个时间片t
k
中,使用变量表示卫星s
l
和地面测控站g
i
是否一直处于可视状态,0表示不可见,1表示可见;地面测控站g
i
在时间片t
k
内的可视卫星序列可为其中l∈[1,N]。
[0012]优选地,使用变量表示在规划过程中在时间片t
k
内,卫星s
l
是否与地面测控站g
i
的天线a
j
建立连接,0表示未建立连接,1表示建立连接;在进行链路规划时,需要满足以下相关约束:1)星地可见约束:如果卫星s
l
与地面测控站g
i
的天线建立连接,则需要相互可见,即其中i∈[1,M],l∈[1,N];2)卫星链路数量约束:一颗卫星在一个时间片tk内最多只能与一个地面站的一根天线建立连接,即满足其中i∈[1,M],l∈[1,N],k∈[1,K];3)天线资源约束:一个地面站在一个时间片内至多与L颗卫星建立连接,即需要满足其中k∈[1,K]。
[0013]优选地,所述多目标优化模型为:
[0014]使得每个地面测控站已分配的天线资源最多:其,中RU
i
表示地面站g
i
已分配天线和天线总数的比值;
[0015]同时使每颗卫星运动周期内在不同地面测控站间链路切换的次数最少,星座总的切换次数最少:其中,SW
i
代表地面站g
i
在整个星地链路规划周期T内所有天线的切换次数。
[0016]优选地,所述链路规划问题解耦的方法为:每个时间片首先将第m个地面测控站g
m
的所有天线都初始化为空闲状态,之后根据每个时间片的星地可视关系研究每个时间片内的链路规划方案;所述深度强化学习中的深度Q网络算法利用深度学习处理高维数据提取特征的强大感知能力结合强化学习探索交互的决策能力,实现星地测控链路的高效最优规
划。
[0017]优选地,所述深度强化学习中的深度Q网络算法包括三个要素:状态空间、动作空间、奖励函数;
[0018]其中,状态空间:在时间片t
k
中,地面测控站g
i
的可视卫星序列为可视卫星序列长度为LV,状态序列集合中F(s
l
)代表可视卫星序列中相应卫星的状态值,F(s
l
)∈[0,5],0代表卫星与地面站处于不可见状态,l本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低轨星座中基于强化学习的星地测控链路规划方法,其特征在于,包括:考虑低轨巨型星座星地链路规划问题,同时满足星地可见约束、卫星链路数量约束、天线资源约束和变量可行域限制,建立最大化资源利用率和最小化切换次数的多目标优化模型;将星座整个运行周期的链路规划问题解耦成每个离散时间片内链路规划问题,采用深度强化学习中的深度Q网络算法求解多目标优化模型以完成最优的巨型星座星地链路规划决策,智能体根据每次分配时的可视卫星状态,做出最佳动作,选择最佳卫星建立链路从而完成星地测控链路规划。2.根据权利要求1所述的低轨星座中基于强化学习的星地测控链路规划方法,其特征在于,所述星地链路规划问题中包含星座运行周期、多颗卫星以及多个地面测控站,整个链路规划周期为T被划分为K个时间片,每个时间片t
k
的大小均为T/K,时间片集合为{t
k
|k=1,2,3,...,K};设地面测控站的数量为M个,地面测控站集合G={g
i
|i=1,2,3,...,M},对于每一个地面测控站g
i
,设其拥有L个天线资源,即可以同时与L颗卫星同时建立测控链路;天线集合为An={a
j
|j=1,2,3,...,L},a
l
表示第l根天线;设整个低轨星座由N颗卫星组成,卫星集合定义为S={s
l
|l=1,2,3,...,N},s
l
表示第l颗卫星;在划分的每个时间片t
k
中,使用变量表示卫星s
l
和地面测控站g
i
是否一直处于可视状态,0表示不可见,1表示可见;地面测控站g
i
在时间片t
k
内的可视卫星序列可为其中l∈[1,N]。3.根据权利要求2所述的低轨星座中基于强化学习的星地测控链路规划方法,其特征在于,使用变量表示在规划过程中在时间片t
k
内,卫星s
l
是否与地面测控站g
i
的天线a
j
建立连接,0表示未建立连接,1表示建立连接;在进行链路规划时,需要满足以下相关约束:1)星地可见约束:如果卫星s
l
与地面测控站g
i
的天线建立连接,则需要相互可见,即其中i∈[1,M],l∈[1,N];2)卫星链路数量约束:一颗卫星在一个时间片t
k
内最多只能与一个地面站的一根天线建立连接,即满足其中i∈[1,M],l∈[1,N],k∈[1,K];3)天线资源约束:一个地面站在一个时间片内至多与L颗卫星建立连接,即需要满足其中k∈[1,K]。4.根据权利要求3所述的低轨星座中基于强化学习的星地测控链路规划方法,其特征在于,所述多目标优化模型为:使得每个地面测控站已分配的天线资源最多:其,中RU
i
表示地面站g
i
已分配天线和天线总数的比值;同时使每颗卫星运动周期内在不同地面测控站间链路切换的次数最少,星座总的切换次数最少:其中,SW
i
代表地面站g
i
在整个星地链路规划周期T内所有天线的切换次数。5.根据权利要求2

4中任意一项所述的低轨星座中基于强化学习的星地测控链路规划方法,其特征在于,所述链路规划问题解耦的方法为:每个时间片首先将第m个地面测控站
g
m
的所有天线都初始化为空闲状态,之后根据每个时间片的星地可视关系研究每个时间片内的链路规划方案;所述深度强化学习中的深度Q网络算法利用深度学习处理高维数据提取特征的强大感知能力结合强化学习探索交互的决策能力,实现星地测控链路的高效最优规划。6.根据权利要求5所述的低轨星座中基于强化学习的星地测控链路规划方法,其特征在于,所述深度强化学习中的深度Q网络算法包括三个要素:状态空间、动作空间、奖励函数;其中,状态空间:在时间片t
k
中,地面测控站g
i
的可视卫星序列为可视卫星序列长度为LV,状态序列集合中F(s
l
)代表可视卫星序列中相应卫星的状态值,F(s
l
)∈[0,5],0代表卫星与地面站处于不可见状态,l代表该卫星已与其他地面测控站建立连接,2代表该卫星在上一时间片未与该地面测控站连接,且该卫星同时被其他地面测控站可见,3表示该卫星在上一时间片未与该地面测控站连接,且该卫星不被其他地面测控站可见,4表示该卫星在上一时间片与该地面测控站连接,且该卫星同时被其他地面测控站可见,5表示该卫星在上一时间片与该地面测控站连接,且该卫星不被其他地面测控站可见;动作空间:在时间片t
k
中,对每个地面测控站g
i
,动作空间其中[s1,s
LV
]表示地面测控站的可视卫星序列,表示地面测控站的填充卫星序列;经过算法的计算与结果的筛选,将为地面站每个天线资源分配相应卫星,最终得到动作集合A={A1,A2,A3,...,A
L
},A
j
∈Action表示分配给地面测控站g
i
的天线a
j
的可视卫星,集合长度与每颗卫星的天线资源个数相等;奖励函数为:其中,R为基本奖励值,P为惩罚因子,卫星状态值F(s
...

【专利技术属性】
技术研发人员:朱睿杰裴文铎张玉东张文超席超刘佩璋杨博
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1