【技术实现步骤摘要】
一种NOMA系统中基于分层深度强化学习的动态频谱接入方法
本专利技术属于深度强化学习、NOMA、动态频谱接入、功率控制等领域,涉及一种NOMA系统中基于分层深度强化学习的动态频谱接入方法。
技术介绍
现有的基于深度强化学习的动态频谱接入方案主要包括:基于集中式深度强化学习的动态频谱接入方案和基于分布式深度强化学习的动态频谱接入方案。其中基于集中式深度强化学习的动态频谱接入方案通过单一的控制中心集中处理全局的环境信息然后做出决策;而基于分布式强化学习的动态频谱接入方案通过用户独自处理局部环境信息然后做出决策或通过用户间相互协作然后做出决策。然而,基于这两种结构的动态频谱接入方案都存在着一定的缺陷,例如:基于分布式深度强化学习的动态频谱接入方案都没有考虑用户的自身特性,例如:用户的通信优先级、数据优先级和用户能量等情况。这是因为在不考虑用户协作的条件下基于分布式深度强化学习的动态频谱接入方案无法做出有效地接入决策,而当考虑用户协作时,由于用户的相互独立,用户间的信息交换需要大量的信令开销。而基于集中式深度强化学习的动态频谱接入方 ...
【技术保护点】
1.一种NOMA系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:包括以下步骤:/nS1:构造上行多用户多信道的通信场景;/nS2:建立信道干扰模型;/nS3:将通信优先级高的用户优先获得信道使用权,确保接入用户解码成功以及最小化系统丢包数的目标表示为一个优化问题;/nS4:构建多智能体模型,对S3中优化问题基于马尔可夫决策过程进行建模;/nS5:采用集中训练分布执行的方式完成策略的更新和执行。/n
【技术特征摘要】
1.一种NOMA系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:包括以下步骤:
S1:构造上行多用户多信道的通信场景;
S2:建立信道干扰模型;
S3:将通信优先级高的用户优先获得信道使用权,确保接入用户解码成功以及最小化系统丢包数的目标表示为一个优化问题;
S4:构建多智能体模型,对S3中优化问题基于马尔可夫决策过程进行建模;
S5:采用集中训练分布执行的方式完成策略的更新和执行。
2.根据权利要求1所述的NOMA系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤S1中:
基于单个网络单元,构造上行多用户多信道的通信场景,网络单元由一个基站和多个用户组成,基站位于网络单元的中心,N个单天线用户随机分布在基站的覆盖范围之内;在所述网络中,用户通过NOMA技术实现与基站的通信;所述通信场景内存在M个可供用户接入的独立信道,所述信道为分配给用户的最小资源单位;在所述通信场景中,所有的链路都受到多路径传播和路径损耗所引起的快慢速衰落效应;
所有用户都具有一个容量为L的缓存器用于缓存数据;在每个时隙t的初始阶段,用户n的缓存器状态被定义为Bn(t)∈{bn,0,...,bn,l,bn,L},Bn(t)=bn,l表示用户n缓存的数据包数量为l;每个时隙t内,用户传输的数据包个数表示为:
其中Tt表示传输时间;Rn(t)表示用户n能够达到的传输速率;D表示数据包大小;R0=4Mbps表示用户需要达到的传输速率阈值;
每个时隙t,用户n生成的所有数据包dn(t)为一个整体;当用户n的缓存空间不足以缓存dn(t)时,dn(t)被全部丢弃;在时隙t用户n的丢包数表示为:
在时隙t+1的初始阶段,用户n的缓存器状态表示为:
3.根据权利要求1所述的NOMA系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤S2中:
在当前无线通信环境中的所有用户都能够进行功率调整,并且所有用户的发送功率为一个连续的区间,即
S21:使用表示信道m中用户n与基站之间的链路增益,其中表示服从瑞利分布的瑞利衰落信道,βn表示用户n与基站之间的大尺度衰落,定义为:
其中λ表示信号的波长;表示用户n与基站之间的距离;
在时隙t内,基站从信道m中接收到的来自用户n的信号表示为:
其中pn(t)∈Pn表示用户n选择的发送功率;表示用户n通过信道m发送给基站的信号;
S22:基站基于信号强度从强到弱的顺序利用连续干扰消除SIC技术完成信号解码;当基站解码用户n的信号时,基站接收到的干扰表示为:
其中,表示基站在时隙t内通过信道m接收到的来自用户j的信号,表示用户j是否接入信道m,定义为:
βj,n(t)表示基站接收到的用户j的信号强度是否大于用户n的信号强度,定义为:
ηj(t)表示用户j的信号是否已经被解码及解码是否成功,定义为:
公式(9)中ηj(t)=0表示解码失败或还未被解码,ηj(t)=1表示已被解码且解码成功;
S23:在每个时隙t,基站从信道m接收到的来自用户n的信干燥比SINR表示为SINRn(t),即:
其中σ2表示噪声。
因此,用户n的传输速率为:
Rn(t)=Wlog2(1+SINRn(t))(11)
4.根据权利要求1所述的NOMA系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤S3中:
将通信优先级高的用户优先获得信道使用权,并在确保接入的用户都解码成功的基础上最小化系统的丢包数目标表示为一个优化问题,表示为:
s.t.C1:Rn≥R0
C2:0≤pn≤Pmax
其中C1表示用户n的传输速率需要大于规定的阈值,C2表示用户的发送功率限制,C3表示用户n是否接入了信道m以及其信号是否被基站成功解码,当用户n接入信道m且其信号被基站成功解码时否则C4确保每一个用户最多接入一个信道。
5.根据权利要求1所述的NOMA系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:步骤S4中:
智能体表示基站与所有的用户,智能体的状态空间、智能体的动作空间和智能体获得的奖励函数,分别定义如下:
S41:对于基站而言,其状态空间为SBS;每个时隙t,基站获得的状态为sBS...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。