当前位置: 首页 > 专利查询>内蒙古大学专利>正文

一种资源分配方法及系统技术方案

技术编号:39053249 阅读:22 留言:0更新日期:2023-10-12 19:45
本发明专利技术提供了一种资源分配方法及系统,基于大规模MIMO

【技术实现步骤摘要】
一种资源分配方法及系统


[0001]本专利技术涉及通信资源分配
,尤其涉及一种资源分配方法及系统。

技术介绍

[0002]在许多现有的无线通信系统中,单个设备能够同时从多个不同的天线发送一个或多个数据流。通常,将预编码应用于数据流以便在天线之间分派它们。即,数据流在从其各自的天线被发送之前被乘以不同的权重和相移。预编码是将传入数据(例如,分层数据)分派到不同天线端口的过程。这可以提供单流波束成形,其中在这些天线中的每个天线上发送相同的数据流。在本专利技术中,从多个天线发送的线性组合信号产生定向辐射波束。这通常被称为波束成形。
[0003]在另一个示例中,被称为多输入多输出(MIMO),可以对多个数据流进行预编码并从不同的天线发送。借助于由分开放置的天线提供的空间分集,信道的总容量可以被乘以层或流的数量。研究继续以推进MIMO技术。例如,多用户MIMO(MU

MIMO)为具有单个天线的多个在空间上分布的用户提供对MIMO信道的多路接入。MU

MIMO可以提供与传统的单用户MIMO相比显著提升的性能。大规模MIMO

NOMA

SWIPT系统可以服务多个用户并提高能量效率。但当用户设备过多时,能量效率提升较为有限,所以合理分配有限的无线通信资源是实现绿色通信的重要解决方案。
[0004]因此,有必要研究一种资源分配方法及系统来应对现有技术的不足,以解决或减轻上述一个或多个问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种资源分配方法及系统,为了解决DQN框架进行用户调度时存在的过度估计问题,引入了DDQN结构来解耦动作选择和评估过程,其次,考虑到系统中用户的自主学习能力,建立用户作为智能体的多智能体场景,最后,因为多智能体场景中多个用户间相互影响且智能体缺乏全局信息共享,提出了基于MADDQN

DMADDPG的用户调度、功率分配和功率分流的联合优化算法,本专利技术可以最大化系统用户总能效且快速收敛。
[0006]一方面,本专利技术提供一种资源分配方法,所述资源分配方法基于大规模MIMO

NOMA

SWIPT系统实现,所述资源分配方法包括以下步骤:
[0007]S1:建立大规模MIMO

NOMA

SWIPT多用户下行链路系统模型;
[0008]S2:通过S1中模型建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型;
[0009]S3:将多变量联合优化问题模型进行分解动作并解耦;
[0010]S4:引入智能体对分解解耦后的多变量联合优化问题模型进行自主学习;
[0011]S5:输出资源优化分配方法。
[0012]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S1中系统模型包括一个配备N个发射天线的基站和K个用户,其中N为不小于2的正整数,模型建立
过程使用全连接混合预编码,配备N个射频链通过空间复用来支持单天线。
[0013]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S2中多变量联合优化问题模型考虑用户服务质量和基站最大发射功率约束。
[0014]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S3中具体为:引入DDQN结构,将选择动作与评估动作两个过程解耦。
[0015]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S4中智能体选择动作根据的是当前网络的在线权重参数,评估动作时根据目标网络的权重参数。
[0016]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S4具体为:引入用户作为智能体的多智能体场景,使每一个用户都自主学习策略并做出最优动作。
[0017]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述S4的训练过程中,Critic网络获取所有智能体的全局动作空间和全局状态信息空间,并对每个智能体的Q值进行全局评估,在执行过程中,智能体仅观察自身状态,根据Actor网络生成动作,并在执行动作后从环境中获得相应的奖励和新状态。
[0018]如上所述的方面和任一可能的实现方式,进一步提供一种基于分簇组网的资源分配系统,所述资源分配系统包括:
[0019]系统模型建立模块,用于建立大规模MIMO

NOMA

SWIPT多用户下行链路系统模型;
[0020]优化问题模型建立模块,用于建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型;
[0021]解耦模块,用于将多变量联合优化问题模型进行分解动作并解耦;
[0022]自主学习模块,用于引入智能体对分解解耦后的多变量联合优化问题模型进行自主学习;
[0023]结果输出模块,用于输出资源优化分配方法。
[0024]与现有技术相比,本专利技术可以获得包括以下技术效果:
[0025]1、研究大规模MIMO

NOMA

SWIPT多用户下行链路系统中基于DRL的用户调度、功率分配和功率分流的联合资源分配算法来解决多用户干扰和传统资源优化方法很难直接获得最优解且逐级寻优性能有限的不足。
[0026]2、首先,建立大规模MIMO

NOMA

SWIPT多用户下行链路系统模型。在此基础上,考虑用户服务质量(Quality of Service,QoS)和基站最大发射功率等约束下,建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型,以实现最大化系统用户总能量效率性能。
[0027]3、其次,考虑到利用DQN进行用户调度时基站智能体始终执行最大化操作来选择最优动作导致过度估计,引入了DDQN结构,将选择动作与评估动作两个过程解耦来解决该问题。具体来说,智能体选择动作依赖的是当前Q网络的在线权重参数,而评估动作时依赖目标Q网络的权重参数。
[0028]4、最后,因为基站智能体作为全局学习单元时每个用户被动执行动作,导致用户不具备自主学习能力,所以引入用户作为智能体的多智能体场景,使每一个用户都自主学习策略并做出最优动作。但是该场景下存在环境不稳定,训练收敛不能保证以及智能体训练过程中缺乏全局信息共享的问题,所以引入集中训练分布执行思想,提出了基于MADDQN

DMADDPG的用户调度、功率分配和功率分流联合资源优化分配算法。在训练过程中,Critic
网络获取所有智能体的全局动作空间和全局状态信息空间,并对每个智能体的Q值进行全局评估。在执行过程中,智能体仅观察自身状态,根据Actor网络生成动作,并在执行动作后从环境中获得相应的奖励和新状态。该算法在大规模MIMO

NOMA

SWIPT多用户系统中可以快速收敛且本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资源分配方法,所述资源分配方法基于大规模MIMO

NOMA

SWIPT系统实现,其特征在于,所述资源分配方法包括以下步骤:S1:建立大规模MIMO

NOMA

SWIPT多用户下行链路系统模型;S2:通过S1中模型建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型;S3:将多变量联合优化问题模型进行分解动作并解耦;S4:引入智能体对分解解耦后的多变量联合优化问题模型进行自主学习;S5:输出资源优化分配方法。2.根据权利要求1所述的资源分配方法,其特征在于,所述S1中系统模型包括一个配备N个发射天线的基站和K个用户,其中N为不小于2的正整数,模型建立过程使用全连接混合预编码,配备N个射频链通过空间复用来支持单天线。3.根据权利要求1所述的资源分配方法,其特征在于,所述S2中多变量联合优化问题模型考虑用户服务质量和基站最大发射功率约束。4.根据权利要求1所述的资源分配方法,其特征在于,所述S3中具体为:引入DDQN结构,将选择动作与评估动作两个过程解耦。5.根据权利要求4所述的资源分配方法,其特征在于,所述S4中智能体选...

【专利技术属性】
技术研发人员:刘洋铁勇王芳张雅军刘鑫
申请(专利权)人:内蒙古大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1