基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法组成比例

技术编号：33295397 阅读：23 留言：0更新日期：2022-05-01 00:23

基于多智能体深度强化学习的CoMP

全部详细技术资料下载

【技术实现步骤摘要】
基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法

[0001]本专利技术涉及移动通信和强化学习邻域，具体涉及一种基于多智能体深度强化学习的多小区下行CoMP
‑
NOMA协作成簇和动态功率分配方法。

技术介绍

[0002]非正交多址接入(NOMA)技术允许不同的用户占用相同的频谱、时间和空间资源，可以提高系统容量，解决频谱利用率低的问题，因此被认为是一种很有前途的技术。已有的研究表明，NOMA可以通过适当的功率分配来获得比正交多址(OMA)更高的频谱效率。此外，在多小区场景中，边缘用户由于受到强烈的小区间干扰(ICI)，从而导致信噪比较低。为了缓解传统的基于下行链路OMA的蜂窝系统的ICI，第三代合作伙伴计划(3GPP)采用了协调多点(CoMP)传输技术，其中多个小区协调调度/传输给易受ICI影响的用户。按照传输方案的不同，可以将CoMP技术分为两类：联合处理(JT)技术和协同调度、波束赋形(CS/CB)技术。在JT技术中，下行数据来自多个小区，由多个传输点协同为用户传输数据。而在CS/CB技术中，下行数据来自单小区，但小区之间相互协同使协作点之间干扰消除。
[0003]经检索发现，如S.P.等人发表的“A Novel Low Complexity Power Allocation Algorithm for Downlink NOMA Networks”、TM Shami等人发表的“Radio Resource Management for Userr/>‑
Centric JT
‑
CoMP”，均对单一NOMA系统(CoMP系统)进行了研究。此外M.S.Ali等人发表了“Downlink Power Allocation for CoMP
‑
NOMA in Multi
‑
Cell Networks”，重点研究了联合传输CoMP
‑
NOMA(JT
‑
CoMP
‑
NOMA)模型上，对于JT
‑
CoMP
‑
NOMA模型，制定了最优联合功率分配问题，对于JT
‑
CoMP
‑
NOMA模型，制定了最优联合功率分配问题。并对所提出的CoMP
‑
NOMA模型进行了数值性能评估。
[0004]然而，对于CoMP
‑
NOMA的研究方案都存在一定的局限性，对于传统的基于模型的资源分配方案来说，其优化过程的计算复杂度较高，迭代算法所花费的时间较长。

技术实现思路

[0005]本专利技术的目的是为了克服现有技术中存在的不足，提出了一种基于多智能体深度强化学习(MADRL)的方法来解决协作成簇与功率分配方法，从而最大限度的提高系统频谱效率。提出了一种以小区为中心的NOMA用户分簇方法，并设计了一个深度Q网络(DQN)来生成小区分类策略，通过使用多代理深度确定性策略梯度(MADDPG)网络来为NOMA用户进行功率分配。此外，本专利技术提出了一种划分功率等级的方法，根据用户的解码顺序来确定用户的输出功率范围。使得用户功率在最大基站功率约束的情况下满足SIC解码的必要条件，从而达到辅助MADDPG网络，加快网络收敛的效果。
[0006]基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法，包括以下步骤：
[0007]步骤1，状态获取：在时刻t，根据用户到各自小区基站的距离将用户分成中心用户
和边缘用户；然后，获取小区内所有用户到各个小区基站的信道增益信息作为当前状态s
t
；
[0008]步骤2，小区分簇：得到状态s
t
后，采用DQN方法为所有用户选择最优的小区分簇方案
[0009]步骤3，功率分配：获得小区分簇方案状态后，通过MADDPG网络得到的用户选择最优的功率分配方案并进行相应的线性变换；
[0010]步骤4，奖励获取：根据深度强化学习方法，获取最终功率分配方案然后计算系统的整体频谱效率作为奖励反馈给神经网络；
[0011]步骤5，参数更新：根据得到的反馈奖励，基于经验重放训练用户服务基站分配网络和功率分配网络内的DQN和MADDPG神经网络，更新网络的参数，从而优化功率分配方案的选择。
[0012]进一步地，所述步骤1的具体步骤为：
[0013]在t时刻，基站获取所有用户的信道增益信息，则当前时刻下的状态s
t
表示为当前时刻所有用户到所有小区基站的信道增益；根据用户到各自小区基站的距离将用户分成中心用户m
nc
和边缘用户m
c
；定义用户m到各小区基站的距离为其中表示用户m到本小区的距离，K＝{1，2,...,K}为小区的集合；对用户m进行如下判断：
[0014][0015]其中r为小区的半径；DQN和MADDPG网络在t时刻的s
t
分别表示如下：
[0016][0017][0018]其中K为整个小区的总数，N为每个簇内的小区数，为小区分簇后的总簇数，M
c
为中心用户的总数，和为第z个簇内中心用户和边缘用户的总数。为边缘用户m
c
与基站k之间的信道增益。为第z个簇内的中心用户(边缘用户)与簇内基站n之间的信道增益。
[0019]进一步地，所述步骤2的具体步骤为：
[0020]得到s
t
后，使用DQN将K个小区进行分簇，每个簇内最大包括N个小区，则K个小区将被分成Z个簇；C＝{C1,C2,...C
Z
}表示小区的分簇情况，其中C
z
表示第z类簇的小区基站索引集合；同一簇内的小区合作共同服务改簇内的所有边缘用户，中心用户则仅由本小区的基站服务；同一小区内的用户将形成同一NOMA簇并且这些NOMA簇的交集为该簇内所有的边缘用户；规定簇内所有的边缘用户都先于中心用户解码。
[0021]进一步地，所述步骤2中，DQN中包含两个深度神经网络，即训练网络和目标网络ω和ω
_
为神经网络参数；小区分簇DQN单元遵循ε
‑
greedy策略从所
有小区分簇方案中选择一个作为当前的最佳分配方案。
[0022]进一步地，所述步骤2中，ε
‑
greedy策略指，以概率1
‑
ε从动作空间中随机选择一个小区分簇方案做为t时刻的最优小区分簇方案输出；或者以概率ε选择那个拥有最大Q值的方案，即选择：
[0023][0024]其中0＜ε＜1，A1表示所有可能的小区分簇方案组成的集合。之后，DQN网络输出t时刻的小区分簇方案
[0025]进一步地，所述步骤3的具体步骤为：
[0026]采用MADDPG为所有用户进行功率分配；获得小区分簇后，将每个簇视作一个智能体，采用M本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法，其特征在于：包括以下步骤：步骤1，状态获取：在时刻t，根据用户到各自小区基站的距离将用户分成中心用户和边缘用户；然后，获取小区内所有用户到各个小区基站的信道增益信息作为当前状态s
t
；步骤2，小区分簇：得到状态s
t
后，采用DQN方法为所有用户选择最优的小区分簇方案步骤3，功率分配：获得小区分簇方案状态后，通过MADDPG网络得到的用户选择最优的功率分配方案并进行相应的线性变换；步骤4，奖励获取：根据深度强化学习方法，获取最终分配方案然后计算系统的整体频谱效率作为奖励反馈给神经网络；步骤5，参数更新：根据得到的反馈奖励，基于经验重放训练用户服务基站分配网络和功率分配网络内的DQN和MADDPG神经网络，更新网络的参数，从而优化功率分配方案的选择。2.根据权利要求1所述的基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法，其特征在于：所述步骤1的具体步骤为：在t时刻，基站获取所有用户的信道增益信息，则当前时刻下的状态s
t
表示为当前时刻所有用户到所有小区基站的信道增益；根据用户到各自小区基站的距离将用户分成中心用户m
nc
和边缘用户m
c
；定义用户m到各小区基站的距离为其中表示用户m到本小区的距离，K＝{1，2,...,K}为小区的集合，同时定义g
m,k
(t)表示用户m和基站k之间的通道增益；对用户m进行如下判断：其中r为小区的半径；DQN和MADDPG网络在t时刻的s
t
分别表示如下：分别表示如下：其中K为整个小区的总数，N为每个簇内的小区数，为小区分簇后的总簇数，M
c
为中心用户的总数，和为第z个簇内中心用户和边缘用户的总数。为边缘用户m
c
与基站k之间的信道增益。为第z个簇内的中心用户(边缘用户)与簇内基站n之间的信道增益。3.根据权利要求1所述的基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法，其特征在于：所述步骤2的具体步骤为：得到s
t
后，使用DQN将K个小区进行分簇，每个簇内最大包括N个小区，则K个小区将被分
成个簇；C＝{C1,C2,...C
Z
}表示小区的分簇情况，其中C
z
表示第z类簇的小区基站索引集合；同一簇内的小区合作共同服务改簇内的所有边缘用户，中心用户则仅由本小区的基站服务；同一小区内的用户将形成同一NOMA簇并且这些NOMA簇的交集为该簇内所有的边缘用户；规定簇内所有的边缘用户都先于中心用户解码。4.根据权利要求3所述的基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法，其特征在于：所述步骤2中，DQN中包含两个深度神经网络，即训练网络和目标网络ω和ω
_
为神经网络参数；小区分簇DQN单元遵循ε
‑
greedy策略从所有小区分簇方案中选择一个作为当前的最佳分配方案。5.根据权利要求4所述的基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法，其特征在于：所述步骤2中，ε
‑
greedy策略指，以概率1
‑
ε从动作空间中随机选择一个小区分簇方案做为t时刻的最优小区分簇方案输出；或者以概率ε选择那个拥有最大Q值的方案，即选择：其中0＜ε＜1，A1表示所有可能的小区分簇方案组成的集合；之后，DQN网络输出t时刻的小区分簇方案6.根据权利要求1所述的基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法，其特征在于：所述步骤3的具体步骤为：采用MADDPG为所有用户进行功率分配；获得小区分簇后，将每个簇视作一个智能体，采用MADDPG的方法为所有用户选择最优的功率分配方案；MADDPG包括一个策略网络Actor和一个价值网络Critic；策略网络的输入状态为本簇内用户的信道增益信息；此外，其他簇内小区的用户功率仅仅在训练期间作为价值网络额外的信息输入；策略网络和价值网络的参数分别为θ和μ；通过策略网络获取t时刻的用户功率分配然后，在的基础上对功率进行相应变换。7.根据权利要求6所述的基于多智能体深度强化学习的CoMP
‑
NOMA协作成簇与功率分配方法，其特征在于：所述步骤3中，具体的，首先根据...

【专利技术属性】
技术研发人员：王小明，王世超，徐友云，胡静，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人