一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法技术方案

技术编号：40969737 阅读：2 留言：0更新日期：2024-04-18 20:51

本发明专利技术公开了一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，包括建立基于NOMA的多波束卫星下行通信链路系统，采集多波束卫星下行通信链路的数据，计算多波束内用户的平均信道增益；构建信号传输模型，采用香农定理，计算得到系统发送下行信号速率之和；构建多波束NOMA下行链路系统的资源分配模型，包括目标函数和约束条件，基于目标函数和约束条件，形成优化问题，包括连续优化问题和离散优化问题；采用GAN‑DDPG算法对连续优化问题进行求解，采用GAN‑DDQN算法对离散优化问题进行求解，重复这个步骤直到目标函数收敛，得到最优资源分配策略。本发明专利技术根据实时的通信需求，优化了资源的分配，提高了资源的利用效率，从而提高了系统的可靠性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于卫星通信领域，公开了一种基于强化学习的noma多波束卫星通信系统多维资源分配方法。

技术介绍

1、随着通信技术的发展和需求的增加，人们对多波束卫星通信系统的研究有了更多的期望，对地球上资源的有效管理和分配以及系统性能的提高变得越来越重要。卫星通信需要使用特定的频段进行无线传输。频谱管理涉及到频段规划、频谱分配和频段监测等技术，以确保不同卫星系统之间的频谱资源得到有效利用。这些
技术介绍
的不断发展和创新，推动了卫星通信技术的进步和应用范围的扩大。

2、然而现有的卫星通信技术需要使用特定的频段进行传输，而频谱资源有限，频段分配的复杂性限制了卫星通信系统中频段的利用效率，降低了系统的可靠性和稳定性。

技术实现思路

1、专利技术目的：提供一种基于强化学习的noma多波束卫星通信系统多维资源分配方法，以解决现有技术存在的上述问题。

2、技术方案：一种基于强化学习的noma多波束卫星通信系统多维资源分配方法，包括以下步骤：

3、s1、建立基于noma的多波束卫星下行通信链路系统，采集多波束卫星下行通信链路的数据，计算多波束内用户的平均信道增益；

4、s2、基于平均信道增益，构建信号传输模型，采用香农定理，计算得到系统发送下行信号速率之和，记为系统可达和速率；

5、s3、基于系统可达和速率，构建多波束noma下行链路系统的资源分配模型，基于资源分配模型的目标函数和约束条件，形成优化问题，优化问题包括连续优化问题和离散优化问题；

6、s4、采用gan-ddpg算法对连续优化问题进行求解，采用gan-ddqn算法对离散优化问题进行求解，重复这个步骤直到目标函数收敛，得到最优资源分配策略。

7、根据本申请的一个方面，步骤s1具体为：

8、s11、建立基于noma的多波束卫星下行通信链路系统，包括卫星、波束、用户和子信道，获取卫星、波束、用户和子信道的数据；

9、s12、基于获取的数据，计算多波束卫星下行通信链路的参数，包括卫星发射天线增益、用户接收天线增益和路径损耗；

10、s13、基于获取的数据和多波束卫星下行通信链路的参数，采用贝塞尔函数，计算多波束内用户的平均信道增益。

11、根据本申请的一个方面，步骤s2具体为：

12、s21、根据noma的原理，将每个波束内的用户进行分组，得到预定个用户对；

13、s22、通过子信道向用户对发送混叠信号，采用连续干扰消除技术对混叠信号进行解码，基于平均信道增益和解码后的混叠信号，构建信号传输模型；

14、s23、基于信号传输模型，采用香农定理，计算每个用户对的传输速率，并求和得到系统发送下行信号速率之和，记为系统可达和速率。

15、根据本申请的一个方面，步骤s3具体为：

16、s31、基于系统可达和速率，构建多波束noma下行链路系统的资源分配模型，资源分配模型包括目标函数和约束条件，目标函数为最大化系统可达和速率，约束条件为系统的长期能耗；

17、s32、基于目标函数和约束条件，构建优化变量，优化变量包括用户分组策略、子信道分配策略、带宽分配策略和功率分配策略；

18、s33、基于带宽分配策略和功率分配策略，形成连续优化问题，基于用户分组策略和子信道分配策略，形成离散优化问题。

19、根据本申请的一个方面，步骤s4具体为：

20、s41、基于连续优化问题，采用gan-ddpg算法，构建第一神经网络；

21、s42、采用随机行为策略和经验回放技术，构建第一训练集，采用第一训练集对第一神经网络进行训练，得到训练后的第一神经网络；

22、s43、基于离散优化问题，采用gan-ddqn算法，构建第二神经网络；

23、s44、采用生成对抗网络技术以及经验回放技术，构建第二训练集，采用第二训练集对第二神经网络进行训练，得到训练后的第二神经网络；

24、s45、基于训练后的第一神经网络和第二神经网络，判断目标函数是否收敛，如果收敛，则输出最优资源分配策略，如果不收敛，则返回步骤s41，继续迭代。

25、根据本申请的一个方面，步骤s31中系统的长期能耗包括用户对的最低接收速率、最高带宽总量、最高发送功率和最高系统长期功率和、用户对和子信道的匹配。

26、根据本申请的一个方面，步骤s31具体为：

27、s311、获取用户的服务质量，基于用户的服务质量对用户进行分类，分为高质量用户和低质量用户；其中用户的服务质量包括用户的业务类型、优先级和信道条件；

28、s312、基于信号传输模型，分别计算高质量用户和低质量用户的误码率；

29、s313、基于系统可达和速率、高质量用户的误码率和低质量用户的误码率，构建多波束noma下行链路系统的资源分配模型；

30、s314、资源分配模型包括目标函数和约束条件，目标函数为最大化系统可达和速率、最小化高质量用户的误码率和最小化低质量用户的误码率，约束条件为系统的长期能耗。

31、根据本申请的一个方面，目标函数为：

32、1/t maxv,a,w,p∑t∈trsum(t)

33、其中v和a为离散优化变量，w和p为连续优化变量，t表示时隙，t表示时隙合集，rsum（t）表示系统的可达和速率，具体为：

34、rsum（t）=∑b∈b∑k∈vb（t）rk，b（t）

35、其中b表示波束集合，vb（t）表示第b个波束在时隙t所服务的用户集合，rk，b（t）表示第t个时隙第b个波束中卫星向第k个用户发送的下行信号所达到的传输速率，具体为：

36、rk，b（t）=wk，b（t）log（1+hk，b（t）pk，b（t）/∑i∈b，i≠b∑j∈vihk，b（t）ak，j（t）sqrt（pi，j（t））+zk，b）

37、其中hk，b（t）表示第t个时隙用户k在波束b内的平均信道增益，pk，b（t）表示在第t个时隙第b个波束中卫星发送信号到第k个用户时所分配的发送功率，ak，j（t）为通过取0或者取1来判断用户k和用户j是否占用相同的子信道，zk，b表示加性高斯白噪声，wk，b（t）表示第t个时隙中第b个波束中卫星向第k个用户发送的信号时所占据的子信道的带宽；

38、采用gan-ddpg算法对连续优化问题进行求解，训练损失定义为：

39、l=1/n∑i（ri+g *q（si+1，*m（si+1 | q*m）| q *q ）-q（si，｛vi,ai,wi,pi｝| qq））2

40、其中n代表着从经验池中进行小批量随机采样的数量，r表示奖励，g表示折扣因子，*q和q 为两个评价网络，*m和m表示两个策略网络，m（）表示其中一个策略网络的输出，si 表示从经验池中第i次采样得到的状态，si+1表示从经验池中第i+1次本文档来自技高网...

【技术保护点】

1.一种基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S1具体为：

3.根据权利要求2所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S2具体为：

4.根据权利要求3所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S3具体为：

5.根据权利要求4所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S4具体为：

6.根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S31中系统的长期能耗包括用户对的最低接收速率、最高带宽总量、最高发送功率和最高系统长期功率和、用户对和子信道的匹配。

7.根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，步骤S31具体为：

8. 根据权利要求5所述的基于强化学

9.根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，所述步骤S1还包括：

10.根据权利要求5所述的基于强化学习的NOMA多波束卫星通信系统多维资源分配方法，其特征在于，所述步骤S2还包括：

...

【技术特征摘要】

1.一种基于强化学习的noma多波束卫星通信系统多维资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的noma多波束卫星通信系统多维资源分配方法，其特征在于，步骤s1具体为：

3.根据权利要求2所述的基于强化学习的noma多波束卫星通信系统多维资源分配方法，其特征在于，步骤s2具体为：

4.根据权利要求3所述的基于强化学习的noma多波束卫星通信系统多维资源分配方法，其特征在于，步骤s3具体为：

5.根据权利要求4所述的基于强化学习的noma多波束卫星通信系统多维资源分配方法，其特征在于，步骤s4具体为：

6.根据权利要求5所述的基于强化学习的noma多波束卫星通信...

【专利技术属性】
技术研发人员：赖海光，周博文，潘奇，万坤，魏武，
申请(专利权)人：南京控维通信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人