基于深度强化学习的跳波束卫星系统资源动态分配方法技术方案

技术编号：33530384 阅读：13 留言：0更新日期：2022-05-19 01:59

本发明专利技术公开了一种基于深度强化学习的跳波束卫星系统资源动态分配方法，包括以下步骤：步骤1、建立跳波束GEO卫星系统前向链路的业务模型；步骤2、将每时隙到达地面波位的业务的数据包存储在数据包缓冲队列中；步骤3、利用度强化学习算法，将卫星的资源分配模块建模为智能体，设计智能体的状态输入、智能体的输出决策动作以及评价动作的奖励；步骤4、仿真步骤3的深度强化学习算法，不断训练深度强化学习算法的决策神经网络权重参数；步骤5、将步骤4训练获得的决策神经网络完成跳波束卫星系统资源动态分配，求解跳波束卫星系统资源分配的最优方案。本发明专利技术降低了数据包的传输时延，提高了跳波束卫星系统的吞吐量。高了跳波束卫星系统的吞吐量。高了跳波束卫星系统的吞吐量。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的跳波束卫星系统资源动态分配方法

[0001]本专利技术涉及卫星通信领域，特别是一种基于深度强化学习的跳波束卫星系统资源动态分配方法。

技术介绍

[0002]在传统的多波束卫星系统中，分配给每个波束的功率和频率资源是相对固定的。然而，由于波束间的业务请求是非均匀的、时变的，传统的分配算法无法满足业务请求。跳波束(BH)技术基于时间切片：只有部分波束被激活以在同一时隙工作。跳波束技术由业务请求驱动，可以极大地提高系统资源利用率。目前跳波束卫星系统前向链路的资源分配算法主要有启发式算法，迭代算法和凸优化算发。启发式算法和迭代算法都存在计算量大、不适用于实时地区匹配地面业务动态变化的场景。凸优化算适用于跳波束卫星系统中波束间的共信道干扰影响程度较小的场景。
[0003]另一方面，深度强化学习(DRL)是近年来人工智能领域最受关注的方向之一。它将深度学习的感知与强化学习的决策相结合，通过高维感知输入的学习直接控制智能体的行为，为解决复杂系统的感知决策问题提供了一条途径。一些研究表明，深度强化学习算法在卫星动态资源分配系统中可以获得更好的性能，主要在多波束卫星系统波束间信道分配，多波束卫星多目标优化资源分配以及跳波束卫星优化传输时延方面。
[0004]然而，现有的基于深度强化学习的跳波束资源分配算法没有考虑波束间的同信道干扰问题。当工作波束相邻时，干扰是不可避免的。为了缓解波束间的同频干扰问题，需要在考虑干扰避免的准则基础上设计一种基于深度强化学习的跳波束卫星系统资源动态分配方法。
专利...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的跳波束卫星系统资源动态分配方法，其特征在于，包括以下步骤：步骤1、根据跳波束GEO卫星系统业务时空分布不均匀的特性，建立跳波束卫星系统前向链路的业务模型；步骤2、根据步骤1建立的跳波束卫星系统前向链路的业务模型，将每时隙到达地面波位的业务的数据包存储在数据包缓冲队列中，其中，数据包服从先到先服务的原则，结合卫星能够提供的容量建立最小化数据包传输时延的优化问题；步骤3、引入深度强化学习算法，将卫星的资源分配模块建模为智能体，设计智能体的状态输入、智能体的输出决策动作以及评价动作的奖励；步骤4、仿真步骤3的深度强化学习算法，初始化卫星场景，设置深度强化学习算法的参数，不断训练深度强化学习算法的决策神经网络权重参数；步骤5、将步骤4训练获得的决策神经网络完成跳波束卫星系统资源动态分配，求解跳波束卫星系统资源分配的最优方案。2.根据权利要求1所述的一种基于深度强化学习的跳波束卫星系统资源动态分配方法，其特征在于，步骤1中建立跳波束卫星系统前向链路的业务模型，具体如下：跳波束卫星系统中，地面波位ψ定义为ψ＝{c
n
|n＝1,2,3,...,N}，其中，N表示地面波位的总编号，c
n
为第n地面波位，最大工作波束数量为K，K≤N，跳波束周期T定义为T＝{t1,t2,...,t
j
,...,t
J
}，其中t
j
表示第j个跳波束时隙，1≤j≤J，J为跳波束时隙总数；t
j
时的跳波束图案其中，表示t
j
时c
n
是否被工作波束点亮，表示t
j
时工作波束点亮c
n
，表示t
j
时没有工作波束点亮c
n
；根据跳波束图案计算t
j
时、c
n
的信干噪比的信干噪比其中，c
i
为第i地面波位，表示t
j
时工作波束点亮c
i
时对c
n
的功率增益，该功率增益包括卫星天线发射增益、自由空间损耗、雨衰和天线接受增益；表示t
j
时工作波束点亮c
n
时对c
n
的功率增益，表示t
j
时工作波束到c
n
的卫星发射功率，表示t
j
时工作波束到c
i
的卫星发射功率，N0是噪声功率谱密度，W是卫星频谱带宽，表示t
j
时工作波束点亮c
i
；t
j
时工作波束点亮c
n
的卫星波束传输容量的卫星波束传输容量其中，f
DVB
‑
S2
(*)是欧洲电信标准协会标准关于信干噪比与频谱效率的分段函数。3.根据权利要求1所述的一种基于深度强化学习的跳波束卫星系统资源动态分配方法，其特征在于，步骤2中建立最小化数据包传输时延的优化问题的具体过程如下：t
j
时新到达c
n
的数据包定义为数据包存储在数据包缓冲队列
其中表示t
j
时c
n
的数据包缓冲队列，的数据包缓冲队列，表示第j
‑
q个跳波束时隙t
j
‑
q
时到达c
n
的数据包，0≤q≤T
th
，T
th
是数据包的最大传输时延；若数据包的传输时延超出T
th
，则该数据包被丢弃；其中，其中，t
j
是数据包被传输的时隙，t
k
是数据包到达地面波位的时隙；综上，建立如下最小化数据包传输时延的优化问题P：综上，建立如下最小化数据包传输时延的优化问题P：综上，建立如下最小化数据包传输时延的优化问题P：综上，建立如下最小化数据包传输时延的优化问题P：综上，建立如下最小化数据包传输时延的优化问题P：其中，表示t
k
到达c
n
的数据包。公式(5)表示单个时隙内最大的工作波束不能超过K，表示t

【专利技术属性】
技术研发人员：张晨，韩永锋，张更新，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人