【技术实现步骤摘要】
一种分布式多智能体通信系统子载波和功率联合分配方法
[0001]本专利技术涉及多小区下行OFDM通信
,特别是涉及一种分布式多智能体通信系统子载波和功率联合分配方法。
技术介绍
[0002]目前多小区下行OFDM系统资源分配采用集中式实现方法,基站收集所属接入用户的信道和需求信息,并上传给上层计算节点,上层计算节点通过求解一个优化问题得到全网最优的无线资源分配方案,然后下发给基站执行。当基站和用户的数量达到一定规模时,计算节点很难在有效的时间之内计算出优化问题的解;此外,信息的上传和下发也要消耗不必要的时延。
技术实现思路
[0003]有鉴于此,本专利技术的目的在于提供一种分布式多智能体通信系统子载波和功率联合分配方法,用以解决
技术介绍
中提及的技术问题。本专利技术首先针对多小区下行OFDM通信系统建立总可达速率最大化模型,并采用分布式多智能体深度Q网络
‑
深度确定策略梯度DQN
‑
DDPG强化学习方法求解,各智能体构建本地的子载波和功率决策模块,在与环境的交互过程中,获得环境反馈的本地奖赏,并将其发送给其他智能体且接收其他智能体的本地奖赏,从而计算得到全局奖赏,依此分布式地更新各自子载波和功率决策模块的参数。采用本专利技术方法,各智能体的子载波和功率分配方案是分布式地计算的,相比传统优化求解方法,在系统规模较大时降低了复杂度,避免了信息上传和下发的开销以及时延对性能造成的影响。
[0004]为了实现上述目的,本专利技术采用如下技术方案:
[00 ...
【技术保护点】
【技术特征摘要】
1.一种分布式多智能体通信系统子载波和功率联合分配方法,其特征在于,包括如下步骤:步骤S1、针对一多小区下行OFDM传输系统,构建其多智能体总可达速率最大化模型A1,该模型A1的表达式为:在该公式(1)中,x是系统的子载波分配矩阵,符号T代表向量的转置,x
c
是智能体c的子载波分配矢量,是智能体c的子载波分配矢量,为智能体c的第u个用户使用第k个子载波的指示变量,表示智能体c的第u个用户使用了第k个子载波,否则C是智能体数目;是智能体c的用户集合;是子载波集合,k是子载波编号,K是子载波数目;p是系统的功率分配矩阵,p
c
是智能体c的功率分配矢量,p
c
=(p
c,1
,
…
p
c,k
,
…
p
c,K
),p
c,k
是智能体c在子载波k上的发射功率;是智能体集合,c是智能体编号;B是子载波的带宽;是智能体c的第u个用户在子载波k上到智能体c
′
的信道增益;σ2是用户接收的高斯白噪声功率;P0是智能体的额定发射功率;步骤S2、构建智能体c的子载波和功率分配决策模块,该模块包括:功率分配动作神经网络NN1
c
、目标功率分配动作神经网络NN2
c
、评价神经网络NN3
c
和目标评价神经网络NN4
c
,其中,该步骤S2具体包括:步骤S201、所述功率分配动作神经网络NN1
c
的输出表示为u
c
(s
c
(t);θ
c
),其中,θ
c
是该神经网络的参数,s
c
(t)是时隙t初始时刻网络NN1
c
的输入,s
c
(t)的表达式为:s
c
(t)=(p
c
(t
‑
1),χ
c
(t
‑
1),γ
c
(t
‑
1))
ꢀꢀꢀ
(2)在该公式(2)中,p
c
(t
‑
1)为前一个时隙智能体c的功率分配矢量;χ
c
(t
‑
1)为前一时隙智能体c的干扰功率矢量,γ
c
(t
‑
1)为前一时隙智能体c的信干噪比矢量;其中,χ
c
(t
‑
1)的表达式为:χ
c
(t
‑
1)=(χ
c,1
(t
‑
1),
…
,χ
c,k
(t
‑
1),
…
,χ
c,K
(t
‑
1))
ꢀꢀꢀ
(3)在该公式(3)中,χ
c,k
(t
‑
1)是前一时隙智能体c在子载波k上的干扰功率,其表达式为:
γ
c
(t
‑
1)的表达式为:γ
c
(t
‑
1)=(γ
c,1
(t
‑
1),
…
,γ
c,k
(t
‑
1),
…
,γ
c,K
(t
‑
1))
ꢀꢀꢀ
(5)在公式(5)中,γ
c,k
(t
‑
1)为前一时隙智能体c在子载波k上的信干噪比,其表达式为:步骤S202、神经网络NN2
c
与神经网络NN1
c
结构一致,其输出表示为其中,是该神经网络的参数;步骤S203、神经网络NN3
c
的输出表示为其中,ω
c
是该神经网络的参数;s
c
(t),是时隙t初始时刻网络的输入;是智能体c在时隙t执行的功率分配动作矢量,行的功率分配动作矢量,是智能体c在时隙t执行的子载波分配动作,是智能体c在时隙t执行的子载波分配动作,是合法的子载波分配动作集合,是合法的子载波分配动作集合,是占用智能体c的第k个子载波的用户;步骤S204、神经网络NN4
c
与神经网络NN3
c
结构一致,其输出表示为其中,是该神经网络的参数;步骤S205、智能体c随机初始化神经网络NN1
c
的参数θ
c
和神经网络NN3
c
的参数ω
c
,使用参数θ
c
初始化神经网络NN2
c
的参数使用参数ω
c
初始化神经网络NN4
c
的参数步骤S206、初始化时隙t=0,最大训练时隙数T,功率分配动作探索方差δ2,子载波分配动作探索概率ε,采样数目D,评价网络学习率λ
Q
和功率分配动作网络学习率λ
μ
,目标网络软更新参数τ,长期累积奖赏折扣因...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。