一种基于多智能体强化学习的多用户MIMO资源调度方法技术

技术编号：37296007 阅读：19 留言：0更新日期：2023-04-21 22:42

本发明专利技术提出一种基于多智能体强化学习的多用户MIMO(MU

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多智能体强化学习的多用户MIMO资源调度方法

[0001]本专利技术涉及调度领域，尤其涉及一种基于多智能体强化学习的多用户MIMO资源调度方法。

技术介绍

[0002]随着第五代通信技术的不断发展，多用户多入多出(MU
‑
MIMO)的应用场景也越来越多，吸引了大批的研究人员开始对MU
‑
MIMO系统进行研究。为了将下行链路中有限的通信资源进行更好的分配，目前存在一些应用于MU
‑
MIMO的下行链路资源调度方法，但传统的资源调度方法往往都因多用户间的干扰较大或者MU
‑
MIMO系统较为复杂的原因，造成系统总吞吐量不高，进而影响通信传输效率的结果。因此，为了将MU
‑
MIMO系统通信资源得到更好的分配，采用基于多智能体强化学习的MU
‑
MIMO资源调度方法是一种更为高效、合理、科学的资源调度策略。

技术实现思路

[0003]针对现有技术中的问题，本专利技术提出了一种基于多智能体强化学习的MU
‑
MIMO资源调度方法，更加合理完成下行链路通信资源调度。
[0004]为了实现本专利技术的上述目的，本专利技术提供了一种基于多智能体强化学习的MU
‑
MIMO资源调度方法，其特征在于，包括：
[0005]S1，所有终端设备发送信道质量信息给基站；
[0006]S2，基站的资源调度器获取来自物理层和媒体接入控制层(MAC)的用户信息；
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的多用户MIMO资源调度方法，其特征在于，包括：S1，所有终端设备发送信道质量信息给基站；S2，基站的资源调度器获取物理层及媒体接入控制(MAC)层的用户信息；S3，构建多智能体强化学习模型，通过资源调度器进行训练学习，并执行子用户集的选择；S4，基站与所选择的用户子集中的终端建立通信连接。2.所述的基于多智能体强化学习的多用户MIMO资源调度方法，其特征在于，所述S1包括：给在一个单基站M个用户的多用户MIMO下行链路系统中，各用户终端通过测量下行信道质量，获取信道质量相关信息，从而将信道质量指示(CQI)、预编码矩阵指示符(PMI)、秩指示符(RI)上报给基站。3.所述的基于多智能体强化学习的多用户MIMO资源调度方法，其特征在于，所述S2包括：每个传输时间间隔(TTI)内，位于MAC层的下行资源调度器接收来自物理层的各用户信道质量信息(包括CQI、PMI、RI)，同时获取MAC层中的用户缓存队列信息和服务质量(QoS)参数，其中包括QoS分类标识(QCI)、保证比特速率(GBR)、聚合最大比特速率(AMBR)，所有参数都将作为变量输入S3中的强化学习网络。4.所述的基于多智能体强化学习的多用户MIMO资源调度方法，其特征在于，所述S3包括：调度器需要从所有可调度用户集合中选取性能最优的，在同一时频资源上选取调度用户子集；将所有可调度的用户看作多智能体群体，调度器所收集到的各用户信息和用户间干扰作为强化学习的环境输入，用户是否作为调度子集看作智能体的决策动作，奖励设...

【专利技术属性】
技术研发人员：廖勇，高歌，孙远欣，
申请(专利权)人：重庆金美通信有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人