一种基于多智能体强化学习的多用户MIMO资源调度方法技术

技术编号:37296007 阅读:19 留言:0更新日期:2023-04-21 22:42
本发明专利技术提出一种基于多智能体强化学习的多用户MIMO(MU

【技术实现步骤摘要】
一种基于多智能体强化学习的多用户MIMO资源调度方法


[0001]本专利技术涉及调度领域,尤其涉及一种基于多智能体强化学习的多用户MIMO资源调度方法。

技术介绍

[0002]随着第五代通信技术的不断发展,多用户多入多出(MU

MIMO)的应用场景也越来越多,吸引了大批的研究人员开始对MU

MIMO系统进行研究。为了将下行链路中有限的通信资源进行更好的分配,目前存在一些应用于MU

MIMO的下行链路资源调度方法,但传统的资源调度方法往往都因多用户间的干扰较大或者MU

MIMO系统较为复杂的原因,造成系统总吞吐量不高,进而影响通信传输效率的结果。因此,为了将MU

MIMO系统通信资源得到更好的分配,采用基于多智能体强化学习的MU

MIMO资源调度方法是一种更为高效、合理、科学的资源调度策略。

技术实现思路

[0003]针对现有技术中的问题,本专利技术提出了一种基于多智能体强化学习的MU

MIMO资源调度方法,更加合理完成下行链路通信资源调度。
[0004]为了实现本专利技术的上述目的,本专利技术提供了一种基于多智能体强化学习的MU

MIMO资源调度方法,其特征在于,包括:
[0005]S1,所有终端设备发送信道质量信息给基站;
[0006]S2,基站的资源调度器获取来自物理层和媒体接入控制层(MAC)的用户信息;
[0007]S3,构建多智能体强化学习模型,资源调度器进行训练学习,并执行子用户集的选择;
[0008]S4,基站与所选择的用户子集中的终端建立通信连接。
[0009]所述的基于多智能体强化学习的MU

MIMO资源调度方法,其特征在于,所述S1包括:
[0010]给在一个单基站M个用户的多用户MIMO下行链路系统中,各用户终端通过测量下行信道质量,获取信道质量相关信息,从而将信道质量指示(CQI)、预编码矩阵指示符(PMI)、秩指示符(RI)上报给基站。
[0011]所述的基于多智能体强化学习的MU

MIMO资源调度方法,其特征在于,所述S2包括:
[0012]每个传输时间间隔(TTI)内,基站物理层接收所有服务用户反馈的信道质量信息,位于MAC层的资源调度器接收来自物理层的用户信道质量信息和来自MAC层的各用户缓存队列信息和服务质量(QoS)参数信息。其中,基站将上报的RI和CQI依据5G协议中的选阶表的解调门限折算为干扰信噪比(SINR),QoS参数包括QoS分类标识(QCI)、保证比特速率(GBR)、聚合最大比特速率(AMBR)。将上述得到的所有信息输入强化学习的策略网络,作为智能体的观测值o
i

[0013]所述的基于多智能体强化学习的MU

MIMO资源调度方法,其特征在于,所述S3包括:
[0014]调度器需要从所有可调度用户集合中选取性能最优的,在同一时频资源上选取调度用户子集。将所有可调度的用户看作多智能体群体,调度器所收集到的各用户信息和用户间干扰作为强化学习的环境输入,用户是否作为调度子集看作智能体的决策动作,奖励设置为系统总吞吐量。
[0015]然后使用中心化训练去中心化执行的方法,选择出最优子用户集。将强化学习的策略网络定义为π(a
i
|o
i
;θ
i
)和价值网络q(o,a;w
i
),其中策略网络中,a
i
为第i个智能体的选择,o
i
为智能体的观测信息,即信道质量信息和高层队列等,θ
i
为策略网络训练时的第i个智能体的参数;价值网络q中,o为所有智能体的观测,a为所有智能体的动作决策,w
i
为价值网络训练时第i个智能体的参数。
[0016]对策略网络和价值网络进行训练学习,不断迭代更新网络参数,待网络达到收敛后,将得到的模型部署到资源调度器中。输入S2中得到的信息,模型执行决策操作,得到最终的子用户集。
[0017]所述的基于多智能体强化学习的MU

MIMO资源调度方法,其特征在于,所述S4包括:
[0018]基站与选出的子用户集中的所有终端建立通信连接,多数据流通过空分复用的方式被调度给该用户子集中的多个用户,通过空间维度的多用户调度获得了额外的多用户分集增益,最终系统总吞吐量和频谱效率达到最优。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0021]图1是本专利技术实施例中多智能体强化学习的MU

MIMO下行链路资源调度方法流程图;
[0022]图2是资源调度器处理流程示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例而已,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没
有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0025]为了能够进行最优的下行链路通信资源调度,有效的提高调度效率,实现通信传输效率最大化,本申请提供一种基于多智能体强化学习的MU

MIMO资源调度方法,及时进行通信资源调度,提高调度效率,降低时间和人工成本。
[0026]为确保下行链路通信资源调度合理完成,在得到各用户信息后,需要使用多智能体强化学习,选择出最优用户子集,从而与基站建立通信连接。给出以下实例,具体步骤包含以下内容:
[0027]参考附图1,示出了专利技术实施例中下行链路通信资源调度流程图,包括以下步骤:
[0028]步骤S101,开始。
[0029]步骤S102,所有终端设备通过测量下行信道质量,获取信道状态信息,然后将CQI信息反馈给基站。
[0030]步骤S103,每个TTI内,基站物理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的多用户MIMO资源调度方法,其特征在于,包括:S1,所有终端设备发送信道质量信息给基站;S2,基站的资源调度器获取物理层及媒体接入控制(MAC)层的用户信息;S3,构建多智能体强化学习模型,通过资源调度器进行训练学习,并执行子用户集的选择;S4,基站与所选择的用户子集中的终端建立通信连接。2.所述的基于多智能体强化学习的多用户MIMO资源调度方法,其特征在于,所述S1包括:给在一个单基站M个用户的多用户MIMO下行链路系统中,各用户终端通过测量下行信道质量,获取信道质量相关信息,从而将信道质量指示(CQI)、预编码矩阵指示符(PMI)、秩指示符(RI)上报给基站。3.所述的基于多智能体强化学习的多用户MIMO资源调度方法,其特征在于,所述S2包括:每个传输时间间隔(TTI)内,位于MAC层的下行资源调度器接收来自物理层的各用户信道质量信息(包括CQI、PMI、RI),同时获取MAC层中的用户缓存队列信息和服务质量(QoS)参数,其中包括QoS分类标识(QCI)、保证比特速率(GBR)、聚合最大比特速率(AMBR),所有参数都将作为变量输入S3中的强化学习网络。4.所述的基于多智能体强化学习的多用户MIMO资源调度方法,其特征在于,所述S3包括:调度器需要从所有可调度用户集合中选取性能最优的,在同一时频资源上选取调度用户子集;将所有可调度的用户看作多智能体群体,调度器所收集到的各用户信息和用户间干扰作为强化学习的环境输入,用户是否作为调度子集看作智能体的决策动作,奖励设...

【专利技术属性】
技术研发人员:廖勇高歌孙远欣
申请(专利权)人:重庆金美通信有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1