一种基于迁移强化学习的资源分配方法组成比例

技术编号:33558088 阅读:11 留言:0更新日期:2022-05-26 22:55
本发明专利技术是一种基于迁移强化学习的资源分配方法,该资源分配方法适用于上行多小区的混合多址接入场景,包括:步骤1:搭建用于资源分配的深度强化学习网络;步骤2:进行MA

【技术实现步骤摘要】
一种基于迁移强化学习的资源分配方法


[0001]本专利技术属于通信
,具体的说是涉及一种基于迁移强化学习的资源分配方法,适用于上行多小区的混合多址接入场景。

技术介绍

[0002]目前,人们对数据速率需求呈指数型增长,而数据速率的大幅提升需要消耗大量频谱资源。在传统通信网络中,一般采用正交多址接入(OMA)技术进行用户复用,而非正交多址接入(NOMA)允许多个用户终端同时共享同一资源单元,能够显著提高系统吞吐量,已成为5G关键技术之一。在实际系统中,NOMA所用的串行干扰消除(SIC)接收机并不能完全消除NOMA用户间干扰,当用户信道增益差过小时,NOMA可能无法满足某些业务的服务质量,也可能无法满足全部用户的功率需求。因此,同时支持两种接入方式的混合多址接入系统被提出,在保证所有用户共同的最好资源分配的情况下如何选择合适的随机接入方式(NOMA或OMA)是提高网络接入容量的关键。
[0003]经过对相关工作的检索发现,B.Liu等人在《IEEE Journal on Selected Areas in Communications,vol.39,no.4,pp.1015

1027,Apr.2021(IEEE通信选定领域杂志,2021年4月,第39卷,第4期,第1015

1027页)》上发表了题为“Resource Allocation for Energy

Efficient MEC in NOMA

Enabled Massive IoT Networks(支持NOMA的大规模物联网网络中节能MEC的资源分配)”一文,该文提出一种用于NOMA的移动边缘计算的资源分配方案。该方案通过匹配和顺序凸规划算法求解,但是该方案没有考虑到通信场景下复杂的环境变化,不能保证方案的长期稳定性。深度学习中的强化学习在与环境的交互中逐渐更新自己的网络,并且以长期奖励为目标,因此其在通信场景下的动态资源分配工作中具有很大优势。
[0004]经过检索发现,X.Zhang等人在《IEEE Internet of Things Journal,vol.7,no.7,pp.6380

6391,Jul.2020(IEEE物联网杂志,2020年6月,第7卷,第7期,第6380

6391页)》上发表了题为“Deep

Reinforcement

Learning

Based Mode Selection and Resource Allocation for Cellular V2X Communications(基于深度强化学习的蜂窝V2X通信模式选择和资源分配)”一文,该文使用深度强化学习研究了蜂窝V2X通信的传输模式选择和资源分配的联合优化问题,最大化车辆到基础设施用户的总容量。
[0005]迁移学习作为深度学习的另一支,被用于传递源域中的知识给与源域相关的目标域。其对于提升模型的鲁棒性和收敛速度具有很大帮助。对于通信场景中频繁变化的环境,在资源分配中加入迁移学习将进一步提高资源分配策略的性能。迁移学习和强化学习的结合可以加速强化学习智能体的学习过程,并且可以利用源域训练的知识,组合到目标域中成为一种有效的资源分配方法。关于迁移学习和强化学习相结合的工作,只有少数文章是针对通信场景中的资源分配目标的。而在本领域技术人员的认知中,也没有研究将多代理强化学习和迁移学习结合到混合多址接入场景中。

技术实现思路

[0006]为了解决上述问题,本专利技术提供了一种基于迁移强化学习的资源分配方法,通过最大化所有用户的总速率,选择最优的用户调度和功率分配方案。
[0007]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0008]本专利技术是一种基于迁移强化学习的资源分配方法,该资源分配方法适用于上行多小区的混合多址接入场景,该资源分配方法包括如下步骤:
[0009]步骤1:搭建用于资源分配的深度强化学习网络(MA

DRL),将当前时刻的环境的信道增益输入MA

DRL,MA

DRL计算信道增益差并依据信道增益差判断网络进行与环境交互的轮次;
[0010]步骤2:进行MA

DRL与环境的交互,每一轮交互中,所有小区获取当前时刻的环境状态,用于分配包含功率分配和用户调度资源的MA

DRL根据状态得出资源分配动作,MA

DRL再根据得出的资源分配动作和环境交互得到当前时刻的奖励和下一时刻的环境状态;
[0011]步骤3:进行MA

DRL的训练过程,训练将依据步骤2中交互得到的经验块进行,将每次与环境交互得到的经验块都存入记忆库中,并施加价值标签,抽取记忆块时选取价值标签更大的经验块;
[0012]步骤4:在资源分配的深度强化学习网络(MA

DRL)基础上,提出一种基于MA

DRL的迁移学习方案(T

DRL),以提升MA

DRL应对环境变化的能力,面对MA

DRL中的两个子网络分开进行迁移。
[0013]本专利技术的进一步改进在于:T

DRL分为三种迁移方式,分别为只迁移功率分配子网络的迁移方式,只迁移用户调度子网络的迁移方式和两个子网络都迁移的迁移方式。第一种迁移方式只迁移了DQN网络,当环境的功率资源变化不大时,可以选择这种迁移方式。第二种迁移方式只迁移了MADDPG网络,当环境的子信道资源变化不大时,可以选择这种迁移方式。第三种迁移方式同时迁移DQN网络和MADDPG网络,当环境整体变化,例如环境的信道衰落方式改变时,会同时影响两个网络的资源分配,此时可以选择这种迁移方式。本专利技术方法使用的T

DRL可以依据不同的环境变化自由的选择合适的迁移方式。
[0014]本专利技术的有益效果是:.
[0015]1、在以往的工作中,要做到同时分配子信道资源和功率资源,利用各类算法解决NP

hard问题,很难找到方法高效地得到最优解,本专利技术通过充分利用深度强化学习的优势,采用集中训练、分布执行的方式搭建多智能体深度强化学习神经网络,在保障每个用户正常通信的前提下,有效降低小区间的干扰,减少传输所耗费的功率;
[0016]2、本专利技术在训练中不断提高系统拟合环境的能力和资源分配的能力,从而提高整个通信系统的通信质量,进而满足未来移动通信系统的要求;
[0017]3、不同于传统的迁移学习方法,本专利技术可以使系统选择独特的迁移方式,选择合适的迁移模型防止发生负迁移的现象,研究多小区混合多址接入系统的资源分配方式的过程中,使用迁移学习对已训练好的深度神经网络进行经验保存,在面对不同分布的新环境时,将来自源任务的知识转移到目标域的任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移强化学习的资源分配方法,该资源分配方法适用于上行多小区的混合多址接入场景,其特征在于:所述资源分配方法包括如下步骤:步骤1:搭建用于资源分配的深度强化学习网络(MA

DRL),将当前时刻的环境的信道增益输入深度强化学习网络,深度强化学习网络计算信道增益差并依据信道增益差判断网络进行与环境交互的轮次;步骤2:进行MA

DRL与环境的交互,每一轮交互中,所有小区获取当前时刻的环境状态,用于分配包含功率分配和用户调度资源的MA

DRL根据状态得出资源分配动作,MA

DRL再根据得出的资源分配动作和环境交互得到当前时刻的奖励和下一时刻的环境状态;步骤3:进行MA

DRL的训练过程,训练将依据步骤2中交互得到的经验块进行,将每次与环境交互得到的经验块都存入记忆库中,并施加价值标签,抽取记忆块时选取价值标签更大的经验块;步骤4:在资源分配网络的基础上,提出一种基于MA

DRL的迁移学习方案,以提升迁移学习方案应对环境变化的能力,面对MA

DRL中的两个子网络分开进行迁移。2.根据权利要求1所述一种基于迁移强化学习的资源分配方法,其特征在于:在所述步骤4中,迁移学习方案分为三种:第一种只迁移功率分配子网络的迁移方式,第二种只迁移用户调度子网络的迁移方式,第三种两个子网络都迁移的迁移方式。3.根据权利要求1所述一种基于迁移强化学习的资源分配方法,其特征在于:所述步骤4具体为:步骤4

1:使用迁移学习来增强MA

DRL模型在目标域中的鲁棒性,具体为使用源域中的网络参数和网络整体作为源域中的知识,并将知识应用于新网络参数的更新中,在DQN中,使用和更新参数,μ
new
代表目标域的新用户调度网络的参数,μ
old
代表源域的旧用户调度网络的参数,代表新网络中的在线网络,代表新网络中的目标网络,β是新旧网络的结合率,β一开始设置的较小,随着训练过程的进行不断增加;步骤4

2:迁移了旧网络的多小区深度策略梯度网络(MADDPG)参数,本发明使用和更新自身的策略网络和Q网络的参数,这是一种软更新方式,每隔一段时间用户调度网络就将新旧策略网络参数的结合以一定比例赋值给Q网络参数,τ代表了这种比例,σ表示了新旧网络的结合比例,σ一开始设置的很小,随着迁移过程的进行不断增加;步骤4

3:用户调度网络迁移源域中的整个目标Q网络,并将其用于估计Q值,具体为将中的Q(s
t+1
,a
t+1
,θ
Q

)变为εQ
new
(s
t+1
,a
t+1
,θ
Q

)+(1

ε)Q
old
(s
t+1
,a
t+1
,θ
Q

),更新完整个资源分配网络的参数后,使用σ=γ
σ
σ,β=γ
β
β和ε=γ
ε
ε更新β,ε和σ的值,重复进行上述过程,直至网络收敛。4.根据权利要求1所述一种基于迁移强化学习的资源分配方法,其特征在于:所述步骤3具体为:
步骤3

1:进入深度强化学习网络的训练过程后,使用价值函数计算记忆块对于训练过程的价值,计算记忆块价值的模块计算出当前时刻记忆块的价值υ

【专利技术属性】
技术研发人员:王小明张义坚蒋锐李大鹏徐友云
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1