大规模LEO卫星网络下的串行Q学习分布式切换方法及系统技术方案

技术编号:34013840 阅读:9 留言:0更新日期:2022-07-02 15:16
本发明专利技术公开了大规模LEO卫星网络下的串行Q学习分布式切换方法及系统;为了描述卫星的动态性,通过阴影莱斯信道模型来描述星地链路,使星地间信道增益由用户与卫星间的仰角决定并且随卫星的运动而改变;通过将用户的传输需求与卫星的可用信道数联合考虑,设计了用户的效用函数,并将卫星切换问题转化为长期总效用函数最大化问题。通过充分利用卫星间的独立性以及可视卫星数量有限等特点,提出了串行式深度Q学习算法,使状态空间维度显著减小,有效地求解了长期效用函数最大化问题,改善了卫星切换策略。本发明专利技术提高了用户的平均收益、系统吞吐量,降低了用户业务的强制中断次数,获得较优的系统性能。较优的系统性能。

【技术实现步骤摘要】
大规模LEO卫星网络下的串行Q学习分布式切换方法及系统


[0001]本专利技术属于卫星通信中卫星间切换
,具体涉及大规模LEO卫星网络下的串行Q学习分布式切换方法及系统。

技术介绍

[0002]卫星通信由于其覆盖范围广等特点,被认为是最有希望实现全球覆盖的通信方式之一,而在低轨(low Earth orbit,LEO)、中轨(medium Earth orbit,MEO)以及静地(Geostationary,GEO)卫星中,LEO卫星由于低时延、易组网等特点而受到广泛关注。然而,由于LEO卫星的高速运动性,单颗卫星对用户的覆盖时间非常有限,为了保证用户业务的连续性以及提高用户的服务质量,用户需要在不同卫星间进行切换,因此卫星切换方案的设计是LEO卫星通信网络中重要的问题之一。
[0003]虽然关于LEO卫星切换领域已经有许多研究,但是这些研究都难以应用到大规模低轨卫星网络当中。这是因为一方面,大规模低轨卫星网络中的卫星数量激增,这将显著增加计算的复杂度以及信令开销,尤其对于中心式切换方案而言;另一方面,现有方案大部分依赖于LEO网络全局信息的获取,然而在大规模LEO卫星网络下,获取全局信息将给终端带来巨大负担,尤其是算力以及功率受限的小型终端。此外,大规模LEO卫星网络中高度动态的通信环境难以被现有方案充分认知,从而将导致网络性能的下降。因此,有必要设计一种面向大规模LEO卫星网络的低复杂度的分布式卫星切换方案,使得每个用户只需根据自身获取的局部信息独立地执行切换决策,提高系统性能。
专利技术内
[0004]为了解决现有技术中存在的问题,本专利技术提供一种面向大规模LEO卫星网络的串行Q学习分布式切换方法,该方案充分考虑了大规模低轨卫星网络中卫星数量激增以及全局信息难以获得所带来的影响,设计了一种面向大规模LEO卫星网络的低复杂度的分布式卫星切换方案,提高了系统性能。
[0005]为了实现上述目的,本专利技术采用的技术方案是:一种面向大规模LEO卫星网络的串行Q学习分布式切换方法,包括以下步骤:
[0006]基于大规模LEO卫星网络的下行传输系统,设计大规模LEO卫星下行传输网络中用户与卫星间的切换机制;
[0007]联合考虑根据用户的数据传输情况以及卫星间流量分布情况,设计效用函数并构建优化问题,在满足接入限制的前提下最大化系统中所有用户的长期效用之和;
[0008]采用马尔科夫决策过程对用户在网络中的切换进行建模,求解最大化系统中所有用户的长期效用之和;
[0009]基于马尔科夫决策过程,结合大规模LEO网络特点,设计串行式深度Q学习算法,通过用户与环境的交互进行学习,不断改进策略,根据卫星状态评估其价值,将所得价值作为用户切换的依据,得到最优的切换决策。
[0010]所述大规模LEO卫星网络的下行传输系统包括M个LEO卫星和N个地面用户;将卫星索引集表示为用户索引集表示为每颗卫星的最大可用信道数为C
max
,将时间划分为长度为t
s
的时隙,当用户有业务到达时,从其可视范围内的卫星中选择一颗接入与数据传输;在时隙t,用户i与其可视卫星j间的完整信道功率增益Q
i,j
(t)为:
[0011][0012]其中,L
i,j
(t)为自由空间衰落,为卫星天线增益,G
T
为用户天线增益,h
i,j
(t)是阴影效应以及多径效应导致的信道功率衰落;h
i,j
(t)是一个随机变量,其概率分布受到用户i与卫星j的仰角θ
i,j
(t)的影响,h
i,j
(t)所服从的概率分布随时间变化。
[0013]所述切换机制具体为:将T
H
个时隙定义为一个切换帧,用户每隔一个切换帧进行一次切换决策;根据用户所做出的切换决策,分为两种情况,如果用户选择不切换至新的卫星,那么在之后的切换帧中,全部的T
H
个时隙都将用于用户与当前卫星的数据传输;如果用户选择切换至新的卫星,则消耗T
H
个时隙用于切换时的信令交换以及星上处理,所消耗T
H
个时隙的时间段称为切换阶段;在切换阶段,用户不能进行数据传输;系统中断的情况下重新执行持续T
A
个时隙的切换阶段,直到用户成功接入新的卫星,在一个切换帧中,切换阶段最多行次,其中为向下取整函数,若在K次切换阶段后用户成功接入,则当前切换帧中剩余的T
H

KT
A
个时隙用于数据传输。
[0014]在时隙t,用户i与卫星j的传输速率为:
[0015][0016]其中,B为信道带宽,P
K
为发射功率,Q
i,j
(t)为信道功率增益,σ2为平均噪声功率,与之对应的系统的中断概率为:
[0017][0018]其中R
min
为最小传输速率要求,为阴影以及多径衰落h
i,j
(t)最小功率增益要求。
[0019]联合考虑根据用户的数据传输情况以及卫星间流量分布情况,设计效用函数并构建优化问题,在满足接入限制的前提下最大化系统中所有用户的长期效用之和具体为:将用户传输需求以及卫星间流量负载均衡联合考虑,设计效用函数将切换问题转换为整个系统长期总效用函数的之和的最大化问题,将在时隙t,用户i从卫星j处得到的总收益作为效用函数,表示为:
[0020][0021]其中,γ
i,j
(t)与β
i,j
(t)分别表示连接情况与用户的决策,为用户i在时隙t内能收到的来自卫星j的回报,为用户i在时隙t时因为占用卫星j的信道资源所需付
出的开销。
[0022]基于所述效用函数,切换问题转换为在满足接入限制的前提下最大化系统中所有用户的长期效用之和,
[0023]卫星切换问题转化优化问题:找到最优的切换决策矩阵β(t),使得整个系统中所有用户的长期效用函数之和最大,具体可以表示为:
[0024][0025][0026][0027][0028][0029][0030]其中,β(t)为所有用户的切换决策矩阵,同时也是优化的变量;限制条件分别为:表示用户最多只能选择一颗卫星切换;表示单颗卫星最多服务C
max
个用户;表示切换决策只会在切换帧结束时做出,而在帧内维持不变;β
i,j
(t)∈{0,1}与γ
i,j
(t)∈{0,1}都为二元变量限制。
[0031]采用马尔科夫决策过程对用户在网络中的切换进行建模具体为:将切换过程建模为一个马尔科夫决策过程,其中包括智能体、状态、动作以及收益四要素,采用分布式决策,每个用户独立地进行卫星切换的决策,
[0032]每个用户为一个智能体,在每个时隙的开始更新当前状态,用状态矩阵描述状态,状态矩阵包括智能体进行决策时所需要的所有信息,用户i的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向大规模LEO卫星网络的串行Q学习分布式切换方法,其特征在于,包括以下步骤:基于大规模LEO卫星网络的下行传输系统,设计大规模LEO卫星下行传输网络中用户与卫星间的切换机制;联合考虑根据用户的数据传输情况以及卫星间流量分布情况,设计效用函数并构建优化问题,在满足接入限制的前提下最大化系统中所有用户的长期效用之和;采用马尔科夫决策过程对用户在网络中的切换进行建模,求解最大化系统中所有用户的长期效用之和;基于马尔科夫决策过程,结合大规模LEO网络特点,设计串行式深度Q学习算法,通过用户与环境的交互进行学习,不断改进策略,根据卫星状态评估其价值,将所得价值作为用户切换的依据,得到最优的切换决策。2.根据权利要求1所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法,其特征在于,所述大规模LEO卫星网络的下行传输系统包括M个LEO卫星和N个地面用户;将卫星索引集表示为用户索引集表示为每颗卫星的最大可用信道数为C
max
,将时间划分为长度为t
s
的时隙,当用户有业务到达时,从其可视范围内的卫星中选择一颗接入与数据传输;在时隙t,用户i与其可视卫星j间的完整信道功率增益Q
i,j
(t)为:其中,L
i,j
(t)为自由空间衰落,为卫星天线增益,G
T
为用户天线增益,h
i,j
(t)是阴影效应以及多径效应导致的信道功率衰落;h
i,j
(t)是一个随机变量,其概率分布受到用户i与卫星j的仰角θ
i,j
(t)的影响,h
i,j
(t)所服从的概率分布随时间变化。3.根据权利要求1所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法,其特征在于,所述切换机制具体为:将T
H
个时隙定义为一个切换帧,用户每隔一个切换帧进行一次切换决策;根据用户所做出的切换决策,分为两种情况,如果用户选择不切换至新的卫星,那么在之后的切换帧中,全部的T
H
个时隙都将用于用户与当前卫星的数据传输;如果用户选择切换至新的卫星,则消耗T
H
个时隙用于切换时的信令交换以及星上处理,所消耗T
H
个时隙的时间段称为切换阶段;在切换阶段,用户不能进行数据传输;系统中断的情况下重新执行持续T
A
个时隙的切换阶段,直到用户成功接入新的卫星,在一个切换帧中,切换阶段最多行次,其中为向下取整函数,若在K次切换阶段后用户成功接入,则当前切换帧中剩余的T
H

KT
A
个时隙用于数据传输。4.根据权利要求3中所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法,其特征在于,在时隙t,用户i与卫星j的传输速率为:其中,B为信道带宽,P
K
为发射功率,Q
i,j
(t)为信道功率增益,σ2为平均噪声功率,与之对应的系统的中断概率为:
其中R
min
为最小传输速率要求,为阴影以及多径衰落h
i,j
(t)最小功率增益要求。5.根据权利要求1所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法,其特征在于,联合考虑根据用户的数据传输情况以及卫星间流量分布情况,设计效用函数并构建优化问题,在满足接入限制的前提下最大化系统中所有用户的长期效用之和具体为:将用户传输需求以及卫星间流量负载均衡联合考虑,设计效用函数将切换问题转换为整个系统长期总效用函数的之和的最大化问题,将在时隙t,用户i从卫星j处得到的总收益作为效用函数,表示为:其中,γ
i,j
(t)与β
i,j
(t)分别表示连接情况与用户的决策,为用户i在时隙t内能收到的来自卫星j的回报,为用户i在时隙t时因为占用卫星j的信道资源所需付出的开销。6.根据权利要求5所述的面向大规模LEO卫星网络的串行Q学习分布式切换方法,其特征在于,基于所述效用函数,切换问题转换为在满足接入限制的前提下最大化系统中所有用户的长期效用之和,卫星切换问题转化优化问题:找到最优的切换决策矩阵β(t),使得整个系统中所有用户的长期效用函...

【专利技术属性】
技术研发人员:王熠晨刘昊天王奕欣王弢王璋楠
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1