【技术实现步骤摘要】
多波束卫星资源分配方法及系统
[0001]本专利技术涉及网络数据通信方法
,尤其涉及一种多波束卫星资源分配方法及系统。
技术介绍
[0002]在深空远海、偏远地区、灾难区域等通信设施薄弱地区,卫星通信成为提供设备互联,支撑网络应用的主要方式,也是实现下一代空天地海一体化网络的核心支撑。相比地面通信系统,对地静止卫星通信系统具有覆盖范围广、障碍遮挡少、通信距离远的优势。但是,对地静止卫星通信系统资源相对稀缺,且因为位置固定,容易受到地面的有意和无意干扰。因此,在干扰存在的场景下,高效地调度卫星通信资源,是提升对地静止卫星通信系统服务能力的关键所在。
[0003]为了实现对广大地理区域的覆盖,对地静止卫星通信系统中通常将服务区域分割为若干个较小的服务区域,并采用点波束照射相应区域,为该区域内的地面终端提供通信服务。高效的波束资源调度是卫星通信系统设计主要的关注所在,现有技术中出现了各种各样的卫星通信系统。例如:中国专利技术专利授权“动态卫星波束分配”(申请号:201880028287.5,授权号:CN 110832792 B,公开日:2020年12月11日),提出了一种波束分配方法,通过链路质量测试发现波束漂移,并对波束进行再分配,抵消服务降级;中国专利技术专利申请“多波束功率动态分配方法、通信设备及低轨卫星通信系统”(申请号:201811144945.5,公开号:CN 109067490 A,公开日:2018年12月21日),针对低轨多波束卫星,利用瞬时信道信息和信道资源在不同用户间的分配,选择各波束最佳 ...
【技术保护点】
【技术特征摘要】
1.一种多波束卫星资源分配方法,其特征在于包括如下步骤:深度网络训练:建立对地静止卫星通信系统仿真环境,设定多种干扰模式,基于深度强化学习方法,对星载相控阵天线的权矢量进行训练,得到权矢量配置深度网络;状态感知:卫星部署后,周期性测量各个波束的接收信号,并计算得到各波束的信干噪比;权矢量配置:星载边缘计算单元将当前权矢量和计算得到的信干噪比输入权矢量配置深度网络,获得权矢量设定结果,并将其通过波束控制模块配置到星载相控阵天线;收益评估:星载相控阵天线运行所配置的权矢量,获取该权矢量配置动作对应的收益,将该次配置获得的样本存储到经验池;权矢量配置深度网络更新:每隔一段时间,星载边缘计算单元利用积累得到的经验池,对权矢量配置深度网络进行更新训练。2.如权利要求1所述的多波束卫星资源分配方法,其特征在于,所述步骤深度网络训练的具体方法包括如下步骤:状态设置:初始化卫星传输仿真环境,包括卫星天线权矢量、多个地面站位置以及干扰源位置,得到当前状态;所述状态表达为1个向量,维度为m
×
n+n,其中m为天线元的数量,n是波束的数量,前m
×
n个数值表示天线的权矢量,其取值位于
‑
1到+1之间,后n个数值是n个波束接收到的信噪比,将该状态记为s
t
;在接收阶段,数移相控和合路器分别接收波束控制给出的相位和幅度控制指令,接收n个波束的信号,在发送阶段,数移相控和分路器分别接收波束控制给出的相位和幅度控制指令,发出n个波束;所述前m
×
n个数值中的第i
×
j个数值表示第i个天线元对第j个波束的配置权值;所述地面站是指卫星相控阵天线接收信号的辐射源,每个地面站位于卫星所覆盖的n个波束中的1个,向卫星发送通信信号;所述干扰源是指向卫星发送干扰信号的辐射源,其目的是干扰星载相控阵天线的信号接收,降低其接收信号质量和速率;所述信噪比是指每个波束接收信号的信噪比;动作选择:根据输入状态,选择该状态下所采取的动作,将该动作记为a
t
;所述动作是指下一时刻星载相控阵天线的权矢量配置,是1个向量,维度为m
×
n,其中第i
×
j个数值表示第i个天线元对第j个波束的配置权值;状态判定与收益测量:将选择的动作应用于星载相控阵天线,计算得到每个波束的信噪比,得到新的状态和动作的收益;所述新的状态是1个向量,维度为m
×
n+n,前m
×
n个数值表示配置的权矢量,后n个数值是n个波束的信噪比,将该状态记为s
t
';所述收益的计算取决于期望优化的目标,将收益记为r
t
;经验池更新:将一个4元组(s
t
,a
t
,r
t
,s
t
')作为一个样本存入经验池;采样训练:从经验池中随机采样一个批次样本输入到权矢量配置深度网络,采用深度强化学习算法,对权矢量配置深度网络的参数进行训练;在训练过程中,4个网络的更新过程如下:从经验池中随机取出一个批次的若干4元组
样本进行模型训练和网络参数更新,对一个4元组(s,a,r,s'),通过以下步骤训练主网络和目标网络:更新主网络
‑
评论家网络:将状态s和动作a输入到主网络
‑
评论家网络中,得到主网络Q值Q(s,a);将s'输入到目标网络
‑
演员网络中得到动作a',之后将s'和a'一同输入到目标网络
‑
评论家网络中,得到Q值Q'(s',a'),根据时序差分原理及贝尔曼公式,(s,a)的目标Q值Q*(s,a)=r+Q'(s',a'),希望主网络
‑
评论家网络的输出尽可能的接近目标Q值Q*(s,a),于是将Q*(s,a)作为标签,以Q(s,a)和Q*(s,a)间的差值作为误差去训练并更新主网络
‑
评论家网络;更新主网络
‑
演员网络:将动作s输入到主网络
‑
演员网络中得到动作a1,将s和a1共同输入到主网络
‑
评论家网络中得到Q值Q(s,a1),采用梯度上升方式更新主网络
‑
演员网络的参数以使其输出动作的Q值尽可能大;目标网络更新:经过多次主网络
‑
评论家网络、主网络
‑
演员网络更新后,将二者的参数分别赋予目标网络
‑
评论家网络和目标网络
‑
演员网络;在推理阶段,只需将给定状态输入主网络
‑
演员网络,即可得到下一时刻的权矢量配置,无需进行网络训练与参数更新。3.如权利要求1所述的多波束卫星资源分配方法,其特征在于,所述状态感知的具体方法包括如下步骤:信号接收:星载相控阵天线接收来自地面站的通信信号;信号解调:天线接收的信号通过后端处理,得到各波束收到的通信信号;信噪比计算:星载相控阵天线计算各波束的信噪比。4.如权利要求1所述的多波束卫星资源分配方法,其特征在于,所述权矢量配置的具体方法包括如下步骤:状态设定:将当前权矢量和状态感知步骤得到的信噪比组合成当前状态;权矢量确定:将当前状态输入到权矢量配置深度网络,得到该状态对应的动作,即下个时刻星载相控阵天线的权矢量;权矢量配置:将权矢量确定步骤中得到的权矢量通过波束控制模块加载到星载相控阵天线。5.如权利要求1所述的多波束卫星资源分配方法,其特征在于,所述收益评估的具体方法包括如下步骤:信噪比计算:星载相控阵天线运行所配置的权矢量,计算每个波束接收到信号的信噪比;收益计算:根据n个波束的信噪比,依据最优化目标,计算收益;样本存储:将上一时刻状态、当前权矢量配置、当前状态、收益作为一个样本存储到经验池;所述权矢量配置深度网络更新的具体方法包括如下步骤:样本选择:从经验池中选择小批量样本;网络训练更新:将小批量样本输入到权矢量配置深度网络,进行参数更新训练。6.一种多波束卫星资源分配系统,其特征在于包括:深度网络训练模块:用于...
【专利技术属性】
技术研发人员:魏祥麟,俞石云,王彦刚,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。