一种知识迁移强化学习网络切片通感算资源协同优化方法技术

技术编号:33773808 阅读:18 留言:0更新日期:2022-06-12 14:26
本发明专利技术公布了一种知识迁移强化学习网络切片通感算资源协同优化方法,旨在针对移动边缘网络切片用户差异化服务需求,在考虑网络切片通感算资源、用户设备时延和能耗等约束限制基础上,以用户设备总吞吐量最大化为优化目标,建立网络切片通感算资源协同优化问题模型。在此基础上,将上述优化问题建模为多智能体随机博弈过程,研究多智能体间知识迁移强化学习算法,提升协同优化策略探索效率和可扩展性,实现多样化业务场景下网络切片通感算资源协同优化。协同优化。协同优化。

【技术实现步骤摘要】
一种知识迁移强化学习网络切片通感算资源协同优化方法


[0001]本专利技术属于无线通信
,具体涉及一种知识迁移强化学习网络切片通感算资源协同优化方法。

技术介绍

[0002]随着5G移动通信与物联网的迅猛发展,海量物联设备和泛在连接需求正驱动着移动通信向智能化演进。作为一种新兴的网络范式,移动边缘网络通过将通信资源和计算资源迁移到网络边缘,能够显著减少传输能耗、网络拥塞和处理时延,推动着通信、感知与计算的深度融合。
[0003]在移动边缘网络中,网络切片通过共享通信、感知、计算和基础设施等资源,可以满足低时延高可靠的多样化需求。现有网络切片资源分配方法大致从以下两个方面展开研究。首先是资源优化类型,相对于单一资源优化策略,多维资源协同优化方法较为复杂,且以集中方式为主,通信和控制开销较多。其次是资源分配方式,与静态资源分配方式相比,动态分配策略依据网络环境变化,可实现资源实时动态优化。在实际移动边缘网络中,网络切片性能常常与多种类型资源相关,资源复杂依赖关系较难用准确的数学模型表征;无线信道状态随机性和切片用户业务流量时变性等高维动态网络状态,亦制约着网络切片服务质量提升。
[0004]强化学习作为一种免模型的方法,以其高维空间下强大的决策能力,被认为是解决上述问题有前景的方案之一。然而,方法较少关注通感算融合下多维资源安全高效优化问题。

技术实现思路

[0005]为了克服高维动态网络制约网络切片服务质量的难题,本专利技术的目的在于提出通感算融合下网络切片多维资源安全高效优化方法
[0006]为了达到上述目的,本专利技术所采用的技术方案是:一种知识迁移强化学习的网络切片通感算资源协同优化方法,其特征在于,包括如下步骤:
[0007]步骤1,构建网络切片通感算融合资源协同优化模型;
[0008]步骤1所述构建网络切片通感算融合资源协同优化模型,具体如下:
[0009]假设M个基站共享K个资源块、共享F个计算资源,共可支持N个边缘感知设备接入;第i个基站在时刻t拥有个资源块、个计算资源和个边缘设备(Edge Device,ED);其中,l∈[e,u,m],l=e表示增强移动宽带网络切片类型(enhanced Mobile Broad Band,eMBB),l=u表示海量机器类通信网络切片类型(massive Machine Type Communication,mMTC),l=m表示超可靠低时延通信(ultra

Reliable Low

Latency Communication,uRLLC)网络切片类型。
[0010]在时刻t,定义第i个基站接入第j个边缘设备的二元资源块分配变量为若则表明基站i为EDj分配第k
个资源块;若则表明基站i为EDj未分配第k个资源块。考虑每个资源块最多分配给一个边缘设备,有
[0011]定义第i个基站在时刻t接入第j个边缘设备的二元计算资源分配变量若则表明基站i为EDj分配计算资源f;若则表明基站i为EDj分配计算资源f。考虑每个计算资源最多分配给一个边缘设备,有
[0012]在时刻t,考虑到l∈[e,u,m],三种网络切片类型的性能差异性,eMBB切片关注所有EDs吞吐量之和uRLLC切片侧重所有EDs时延之和考虑到同一时刻大部分mMTC切片设备处于休眠状态,mMTC切片只关注所有EDs吞吐量之和于是,为平衡上述切片差异化需求,在通信资源、感知资源、计算资源、用户总时延和总能耗等限制下,以所有用户吞吐量之和最大化为优化目标,步骤1所述网络切片通感算融合多维资源协同优化模型为:
[0013][0014][0015][0016][0017][0018][0019]其中,限制条件C1、C2、C3、C4和C5分别为通信资源K、感知资源N、计算资源F、用户总时延T和总能耗E的约束条件;表示基站i在时刻t拥有的资源块数,表示基站i在时刻t拥有的计算资源,表示基站i在时刻t拥有的边缘感知设备,其中l∈[e,u,m],l=e表示eMBB网络切片类型,l=u表示mMTC网络切片类型,l=m表示uRLLC网络切片类型;和分别表示第i个基站在时刻t为第j个边缘设备分配第k个资源块的二元资源块分配变量和分配计算资源f的二元计算资源分配变量;表示所有EDs在t时刻的吞吐量之和,表示所有EDs在t时刻
的时延之和,表示所有EDs在t时刻的能耗之和,M为总基站个数。
[0020]步骤2,根据步骤1所述的网络切片通感算融合资源协同优化模型,通过基于知识迁移的多智能体强化学习优化方法对基站i在t时刻拥有的资源块个数计算资源和边缘设备个数以及二元资源块分配变量和二元计算资源分配变量进行优化求解,得到优化后的所有EDs吞吐量之和
[0021]步骤2.1,多智能体随机博弈过程建模:上述优化问题建模为多智能体随机博弈过程,将每个基站等效为智能体。
[0022]所述每个基站的状态定义为:
[0023][0024]其中,表示第i个基站在时刻t的状态,表示第i个基站在t时刻接入第j个边缘设备时三种网络切片中的用户感知计算任务。
[0025]所述每个基站的动作定义为:
[0026][0027]其中,表示第i个基站在时刻t的动作,包括基站i拥有的三种网络切片资源块数计算资源数边缘感知设备数以及第i个基站为第j个边缘设备分配第k个资源块时的用户资源块分配策略和分配计算资源f时的计算资源分配策略
[0028]所述每个基站的奖励函数定义为:
[0029][0030]其中,表示第i个基站在时刻t的奖励函数,反映第i个基站中所有EDs的吞吐量之和。
[0031]步骤2.2,根据步骤2.1所述的多智能体随机博弈过程建模,设计多智能体知识迁移强化学习模型,如图1所示,基站i在时刻t从网络环境中观察到状态在Actor

Critic算法框架下,由Actor网络在采取动作之前选择学生或自学行为模式,然后训练各自行为模式中的网络模型,更新网络参数,从而获得最优的用户资源和计算资源分配策略。
[0032]在时刻t,基站i借助长短期记忆网络单元b
i
将连续z个状态和动作等历史知识作为其隐藏状态
[0033]所述学生模式是基于深度确定策略梯度模型,Actor网络输出选择学生模式的概率P

ss
,当概率超过阈值G时,即P

ss
>G,则基站i选择学生模式并向其他基站发送建议请求;反之,当P

ss
≤G时,基站i选择自学模式。
[0034]设计多头注意力机制模型,每一基站将其他基站作为教师基站,在t时刻接收教师
基站n(1≤n≤M)的状态和动作等历史信息和策略网络参数θ
n
。考虑到多头注意力机制学习参数P1、P2和P3,可获得分配注意力权重:
[0035][0036]其中,D是教师基站n的历史信息向量的维度。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识迁移强化学习的网络切片通感算资源协同优化方法,其特征在于,包括如下步骤:步骤1,构建网络切片通感算融合资源协同优化模型;步骤1所述构建网络切片通感算融合资源协同优化模型,具体如下:假设M个基站共享K个资源块、共享F个计算资源,共可支持N个边缘感知设备接入;第i个基站在时刻t拥有个资源块、Y
il
(t)个计算资源和个边缘设备(Edge Device,ED);其中,l∈[e,u,m],l=e表示增强移动宽带网络切片类型(enhanced Mobile BroadBand,eMBB),l=u表示海量机器类通信网络切片类型(massive Machine Type Communication,mMTC),l=m表示超可靠低时延通信(ultra

Reliable Low

Latency Communication,uRLLC)网络切片类型;在时刻t,定义第i个基站接入第j个边缘设备的二元资源块分配变量为1≤i≤M,1≤j≤N,1≤k≤K;若则表明基站i为EDj分配第k个资源块;若则表明基站i为EDj未分配第k个资源块;考虑每个资源块最多分配给一个边缘设备,有定义第i个基站在时刻t接入第j个边缘设备的二元计算资源分配变量1≤f≤F;若则表明基站i为EDj分配计算资源f;若则表明基站i为EDj分配计算资源f;考虑每个计算资源最多分配给一个边缘设备,有在时刻t,考虑到l∈[e,u,m],三种网络切片类型的性能差异性,eMBB切片关注所有EDs吞吐量之和uRLLC切片侧重所有EDs时延之和考虑到同一时刻大部分mMTC切片设备处于休眠状态,mMTC切片只关注所有EDs吞吐量之和于是,为平衡上述切片差异化需求,在通信资源、感知资源、计算资源、用户总时延和总能耗等限制下,以所有用户吞吐量之和最大化为优化目标,步骤1所述网络切片通感算融合多维资源协同优化模型为:s.t.C1:C2:C3:
C4:C5:其中,限制条件C1、C2、C3、C4和C5分别为通信资源K、感知资源N、计算资源F、用户总时延T和总能耗E的约束条件;表示基站i在时刻t拥有的资源块数,Y
il
(t)表示基站i在时刻t拥有的计算资源,表示基站i在时刻t拥有的边缘感知设备,其中l∈[e,u,m],l=e表示eMBB网络切片类型,l=u表示mMTC网络切片类型,l=m表示uRLLC网络切片类型;和分别表示第i个基站在时刻t为第j个边缘设备分配第k个资源块的二元资源块分配变量和分配计算资源f的二元计算资源分配变量;表示所有EDs在t时刻的吞吐量之和,表示所有EDs在t时刻的时延之和,表示所有EDs在t时刻的能耗之和,M为总基站个数;步骤2,根据步骤1所述的网络切片通感算融合资源协同优化模型,通过基于知识迁移的多智能体强化学习优化方法对基站i在t时刻拥有的资源块个数计算资源Y
il
(t)和边缘设备个数以及二元资源块分配变量和二元计算资源分配变量进行优化求解,得到优化后的所有EDs吞吐量之和步骤2.1,多智能体随机博弈过程建模:上述优化问题建模为多智能体随机博弈过程,将每个基站等效为智能体;所述每个基站的状态定义为:其中,表示第i个基站在时刻t的状态,表示第i个基站在t时刻接入第j个边缘设备时三种网络切片中的用户感知计算任务;所述每个基站的动作定义为:其中,表示第i个基站在时刻t的动作,包括基站i拥有的三种网络切片资源块数计算资源数Y
il
(t)、边缘感知设备数以及第i个基站为第j个边缘设备分配第k个资源块时的用户资源块分配策略和分配计算资源f时的计算资源分配策略所述每个基站的奖励函数定义为:
其中,r
it
表示第i个基站在时刻t的奖励函数,反映第i个基站中所有EDs的吞吐量之...

【专利技术属性】
技术研发人员:赵楠任凡杜威陈金莲陈哲
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1