【技术实现步骤摘要】
一种基于迁移强化学习的资源分配方法
[0001]本专利技术属于通信
,具体的说是涉及一种基于迁移强化学习的资源分配方法,适用于上行多小区的混合多址接入场景。
技术介绍
[0002]目前,人们对数据速率需求呈指数型增长,而数据速率的大幅提升需要消耗大量频谱资源。在传统通信网络中,一般采用正交多址接入(OMA)技术进行用户复用,而非正交多址接入(NOMA)允许多个用户终端同时共享同一资源单元,能够显著提高系统吞吐量,已成为5G关键技术之一。在实际系统中,NOMA所用的串行干扰消除(SIC)接收机并不能完全消除NOMA用户间干扰,当用户信道增益差过小时,NOMA可能无法满足某些业务的服务质量,也可能无法满足全部用户的功率需求。因此,同时支持两种接入方式的混合多址接入系统被提出,在保证所有用户共同的最好资源分配的情况下如何选择合适的随机接入方式(NOMA或OMA)是提高网络接入容量的关键。
[0003]经过对相关工作的检索发现,B.Liu等人在《IEEE Journal on Selected Areas in Communications,vol.39,no.4,pp.1015
‑
1027,Apr.2021(IEEE通信选定领域杂志,2021年4月,第39卷,第4期,第1015
‑
1027页)》上发表了题为“Resource Allocation for Energy
‑
Efficient MEC in NOMA
‑
Enabled Mas ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于迁移强化学习的资源分配方法,该资源分配方法适用于上行多小区的混合多址接入场景,其特征在于:所述资源分配方法包括如下步骤:步骤1:搭建用于资源分配的深度强化学习网络(MA
‑
DRL),将当前时刻的环境的信道增益输入深度强化学习网络,深度强化学习网络计算信道增益差并依据信道增益差判断网络进行与环境交互的轮次;步骤2:进行MA
‑
DRL与环境的交互,每一轮交互中,所有小区获取当前时刻的环境状态,用于分配包含功率分配和用户调度资源的MA
‑
DRL根据状态得出资源分配动作,MA
‑
DRL再根据得出的资源分配动作和环境交互得到当前时刻的奖励和下一时刻的环境状态;步骤3:进行MA
‑
DRL的训练过程,训练将依据步骤2中交互得到的经验块进行,将每次与环境交互得到的经验块都存入记忆库中,并施加价值标签,抽取记忆块时选取价值标签更大的经验块;步骤4:在资源分配网络的基础上,提出一种基于MA
‑
DRL的迁移学习方案,以提升迁移学习方案应对环境变化的能力,面对MA
‑
DRL中的两个子网络分开进行迁移。2.根据权利要求1所述一种基于迁移强化学习的资源分配方法,其特征在于:在所述步骤4中,迁移学习方案分为三种:第一种只迁移功率分配子网络的迁移方式,第二种只迁移用户调度子网络的迁移方式,第三种两个子网络都迁移的迁移方式。3.根据权利要求1所述一种基于迁移强化学习的资源分配方法,其特征在于:所述步骤4具体为:步骤4
‑
1:使用迁移学习来增强MA
‑
DRL模型在目标域中的鲁棒性,具体为使用源域中的网络参数和网络整体作为源域中的知识,并将知识应用于新网络参数的更新中,在DQN中,使用和更新参数,μ
new
代表目标域的新用户调度网络的参数,μ
old
代表源域的旧用户调度网络的参数,代表新网络中的在线网络,代表新网络中的目标网络,β是新旧网络的结合率,β一开始设置的较小,随着训练过程的进行不断增加;步骤4
‑
2:迁移了旧网络的多小区深度策略梯度网络(MADDPG)参数,本发明使用和更新自身的策略网络和Q网络的参数,这是一种软更新方式,每隔一段时间用户调度网络就将新旧策略网络参数的结合以一定比例赋值给Q网络参数,τ代表了这种比例,σ表示了新旧网络的结合比例,σ一开始设置的很小,随着迁移过程的进行不断增加;步骤4
‑
3:用户调度网络迁移源域中的整个目标Q网络,并将其用于估计Q值,具体为将中的Q(s
t+1
,a
t+1
,θ
Q
′
)变为εQ
new
(s
t+1
,a
t+1
,θ
Q
′
)+(1
‑
ε)Q
old
(s
t+1
,a
t+1
,θ
Q
′
),更新完整个资源分配网络的参数后,使用σ=γ
σ
σ,β=γ
β
β和ε=γ
ε
ε更新β,ε和σ的值,重复进行上述过程,直至网络收敛。4.根据权利要求1所述一种基于迁移强化学习的资源分配方法,其特征在于:所述步骤3具体为:
步骤3
‑
1:进入深度强化学习网络的训练过程后,使用价值函数计算记忆块对于训练过程的价值,计算记忆块价值的模块计算出当前时刻记忆块的价值υ
技术研发人员:王小明,张义坚,蒋锐,李大鹏,徐友云,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。