基于深度强化学习的空时域资源分配方法组成比例

技术编号：40663475 阅读：4 留言：0更新日期：2024-03-18 18:57

本发明专利技术属于移动通信技术领域，具体涉及一种基于深度强化学习的空时域资源分配方法，包括：构建以最大化总吞吐量为优化目标的空时域共存机制模型；蜂窝基站获取当前的环境状态信息，根据当前的环境状态信息采用训练后的DDPG网络对优化目标函数进行深度学习，得到空时域资源分配策略；根据空时域资源分配策略，在当前的NR‑U/Wi‑Fi共存网络的基站侧对发送信号进行预编码；本发明专利技术利用了低复杂度算法分配空时域资源，算法收敛速度快且训练结果稳定。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于移动通信，具体涉及一种基于深度强化学习的空时域资源分配方法。

技术介绍

1、第五代(5g)移动通信系统，也称为新无线(new ratio，nr)系统，其所承载的数据流量正在呈爆炸式增长。这是由于越来越多的消耗流量的服务出现，例如虚拟现实、增强现实、物联网等。爆炸性的流量需求使得稀缺的频谱资源更具竞争力，引起了学术界和工业界的广泛关注。目前最有潜力的解决方案之一是将蜂窝业务负载的一部分卸载到非授权频段，这有可能减轻授权频段上的沉重负担，并且还提高了未授权频段的频谱效率。非授权频段主要位于2.4ghz、5ghz以及60ghz。由于2.4ghz频段已经非常拥挤，因此对于6ghz频段中的未授权频段的主要关注落在具有超过400mhz频谱资源的5ghz频段上。于是许多网络运营商和研究机构将关注目光投向了频谱资源相对丰富的非授权频段，考虑将蜂窝网络接入到5ghz非授权频段进行传输。

2、然而，在5ghz非授权频段中，wi-fi是主要网络系统。该网络采用的是基于载波感知多路复用/冲突退避(carrier sense multiple access/collision avoidance，csma/ca)的信道接入技术，其中站点(sta)在数据传输之前先感知信道。相比之下，蜂窝网络系统使用集中式调度机制进行数据传输，其中基站决定用户设备的传输机会。显然，由于两者网络系统信道接入机制的不同，如果没有使用合适的共存机制将蜂窝部署在非授权频段，势必会严重影响wi-fi网络的性能。

3、因此，如何保证wi-fi网络和

技术实现思路

1、为解决以上现有技术存在的问题，本专利技术提出了一种基于深度强化学习的空时域资源分配方法，该方法包括：

2、s1、在nr-u/wi-fi共存网络的场景下构建以最大化总吞吐量为优化目标的空时域共存机制模型；

3、s2、蜂窝基站获取当前的环境状态信息，根据当前的环境状态信息采用训练后的ddpg网络对优化目标函数进行深度学习，得到空时域资源分配策略；

4、s3、根据空时域资源分配策略，在当前的nr-u/wi-fi共存网络的基站侧对发送信号进行预编码。

5、本专利技术的有益效果：

6、本专利技术利用了低复杂度算法分配空时域资源，算法收敛速度快且训练结果稳定。在该方案的帮助下，可以保证蜂窝基站所提供的空域资源不充足时共存网络的吞吐量性能，同时保证对wi-fi网络的公平性。

本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的空时域资源分配方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，NR-U/Wi-Fi共存网络包括运行在相同非授权频段的蜂窝网络和多个Wi-Fi网络；所述蜂窝网络包括一个基站和多个蜂窝用户；所述Wi-Fi网络包括多个APs和Wi-Fi用户。

3.根据权利要求1所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，构建以最大化总吞吐量为优化目标的空时域共存机制模型包括：将优化问题建模为一个具有连续动作空间的马尔可夫决策过程；其中马尔可夫决策过程定义为(S,A,P,R,γ)形式，其中S和A分别表示状态空间和动作空间，表示蜂窝基站以及Wi-Fi AP的状态以及动作；P表示状态转移函数；R表示奖励函数；γ∈[0,1]为折扣系数，表示未来奖励的重要性。

4.根据权利要求3所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，励函数包括根据优化问题构建奖励函数，优化的目标是最大化共存网络的总吞吐量，其中奖励函数是关于共存网络中各网络的吞吐量以及资源分配情况，当Wi-F

5.根据权利要求1所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，以最大化总吞吐量为优化目标的空时域共存机制模型为：

6.根据权利要求5所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，是否检测到蜂窝基站的信号冲突的计算公式为：

7.根据权利要求1所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，对DDPG网络进行训练包括：

8.根据权利要求7所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，更新Critic网络包括：根据动作价值函数Q(s，a)估计从Actor网络获得的动作效果；；动作价值函数根据贝尔曼方程进行Q值更新，更新过程如下：

9.根据权利要求7所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，在主网络中采用策略梯度对Actor网络的策略进行更新包括：Actor网络通过学习确定性策略at＝μ(st|θμ)将状态映射到具有参数θμ的特定动作，其中更新过程为：

10.根据权利要求7所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，更新目标网络包括：

...

【技术特征摘要】

1.一种基于深度强化学习的空时域资源分配方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，nr-u/wi-fi共存网络包括运行在相同非授权频段的蜂窝网络和多个wi-fi网络；所述蜂窝网络包括一个基站和多个蜂窝用户；所述wi-fi网络包括多个aps和wi-fi用户。

3.根据权利要求1所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，构建以最大化总吞吐量为优化目标的空时域共存机制模型包括：将优化问题建模为一个具有连续动作空间的马尔可夫决策过程；其中马尔可夫决策过程定义为(s,a,p,r,γ)形式，其中s和a分别表示状态空间和动作空间，表示蜂窝基站以及wi-fi ap的状态以及动作；p表示状态转移函数；r表示奖励函数；γ∈[0,1]为折扣系数，表示未来奖励的重要性。

4.根据权利要求3所述的一种基于深度强化学习的空时域资源分配方法，其特征在于，励函数包括根据优化问题构建奖励函数，优化的目标是最大化共存网络的总吞吐量，其中奖励函数是关于共存网络中各网络的吞吐量以及资源分配情况，当wi-fi网络的吞吐量小于预先设定的阈值时，奖励为负的r1；当分配的空域资源数量大于要求时，奖励为负的r2；...

【专利技术属性】
技术研发人员：胡昊南，李文鹏，张杰，陈前斌，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人