一种基于深度强化学习的上行NOMA资源分配方法组成比例

技术编号：27843211 阅读：19 留言：0更新日期：2021-03-30 12:38

本发明专利技术公开了一种基于深度强化学习的上行NOMA资源分配方法。该方法在满足每个用户最小传输速率的情况下，通过选择最优的子信道分配策略和功率分配策略，提高整个系统的能量效率，有效减少传输消耗的功率。本方法基于深度强化学习中的深度Q网络，根据NOMA系统的反馈调整网络参数，实现最优的子信道和功率分配。本方法通过功率离散化将深度Q网络适配于连续性资源分配任务，利用分布式的网络结构降低网络的输出维度，进而提高整个资源分配网络的性能。与其他方法相比，本方法能够取得更好的平均总体能量效率，并且在不同传输功率限制的条件下均能取得良好的性能。件下均能取得良好的性能。件下均能取得良好的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的上行NOMA资源分配方法

[0001]本专利技术涉及移动通信和强化学习邻域，具体涉及一种基于深度强化学习的上行NOMA无线资源分配方法。

技术介绍

[0002]第五代通信网络(5G)需要满足飞速上涨的无线数据流量需求，支持高密度的移动用户通信，并且提供各种无线网络服务。最近提出的非正交多址接入技术(Non
‑
Orthogonal Multiple Access，NOMA)，被认为是一种可以有效提高网络容量，满足低延迟、大规模连接和高吞吐量的新兴技术。一方面，与传统的正交多址接入技术(Orthogonal Multiple Access，OMA)相比，NOMA在发射端利用叠加编码(Superposition Coding，SC)技术，用不同的功率等级把同一个子信道分配给多个用户同时传输，共享信道资源，然后在接收端利用串行干扰消除(Successive Interference Cancellation，SIC)技术消除干扰，使得频谱效率和系统容量大大提高，非常适合未来的移动通信。
[0003]另一方面，由于NOMA系统的性能增益与子信道和传输功率的分配方式密切相关，所以通过设计合理的资源分配方案，可以最大化整个NOMA系统的能量效率。从而实现利用较低的发送功率获得较高的传输速率，在充分利用NOMA技术优势的同时，减少不必要的资源浪费。目前已有的研究中提出了不同的方法来研究NOMA系统的最优资源分配方案。
[0004]通过对现有文献的检索发现。T.Manglayev...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的上行NOMA资源分配方法，其特征在于，包括以下步骤：S1、状态获取：在时刻t，基站获取小区内所有用户在不同子信道上的信道增益信息作为当前状态s
t
；S2、子信道分配：基站处的子信道分配网络遵循ε
‑
greedy策略选择最优的子信道分配方案S3、功率分配：得到的子信道分配方案之后，激活基站处的功率分配网络，遵循ε
‑
greedy策略选择最优的功率分配方案S4、反馈获取：所有用户根据资源分配方案在给定的子信道上以给定的功率传输数据到基站；基站返回所有用户的能量效率之和作为反馈；S5、参数更新：根据S4中得到的系统反馈r
t
，基于经验重放和固定Q值两个策略训练子信道分配DQN单元和所有功率分配DQN单元内的神经网络，更新网络的参数，以更好地选择资源分配方案。2.根据权利要求1所述基于深度强化学习的上行NOMA资源分配方法，其特征在于，S1中的信道增益信息包含大尺度衰落和小尺度衰落；在时刻t，所有用户在不同子信道上的信道增益信息组成状态s
t
。3.根据权利要求1所述基于深度强化学习的上行NOMA资源分配方法，其特征在于，S2中子信道分配的具体步骤为：在得到当前状态s
t
之后，s
t
被传送到基站处的子信道分配DQN单元；该单元内的Q网络Q(s，a；w)根据得到的状态s
t
，利用网络参数w估计出所有子信道分配方案的Q值Q(s
t
，a；w)，a∈A1，A1表示所有子信道分配方案组成的集合；子信道分配DQN单元遵循ε
‑
greedy策略从所有子信道分配方案中选择一个；该策略指：以概率1
‑
ε从A1中随机选择一个子信道分配方案或者以概率ε选择那个拥有最大Q值的方案，即：其中0＜ε＜1。4.根据权利要求1所述基于深度强化学习的上行NOMA资源分配方法，其特征在于，S3中的功率分配的具体步骤为：在得到子信道分配方案之后，激活基站处的功率分配网络里的M个功率分配DQN单元；使用相同的状态s
t
作为输入，第m个功率分配DQN单元的Q网络估计出相应的Q值，再遵循ε
‑
greedy策略从所有功率分配方案的集合中选择一个，作为...

【专利技术属性】
技术研发人员：徐友云，李大鹏，蒋锐，
申请(专利权)人：南京爱而赢科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人