当前位置: 首页 > 专利查询>东南大学专利>正文

基于深度强化学习的5G移动负载均衡方法技术

技术编号:26347452 阅读:249 留言:0更新日期:2020-11-13 21:34
本发明专利技术提供了一种基于深度强化学习的5G移动负载均衡方法,包括:初始化参数;开始进行每一轮循环,从已完成初始化的系统环境中获取初始状态后,开始进行每轮内部的每一小步循环;结束当前小步的循环,若当前小步次数未达到设定的最大步数,则转入循环步骤;否则转入下一步;结束当前轮次的循环,若当前轮次次数未达到设定的最大轮次次数,则转入循环步骤;否则转入下一步;利用训练好的动作网络实现移动负载均衡,将系统内各个基站的状态作为动作网络的输入,得到动作网络的输出值并作用到系统中的各个基站,根据A3事件对用户进行切换。本发明专利技术能够实现用户与基站之间的重新分配,进而降低过载小区的负载,实现系统的负载均衡。

5g mobile load balancing method based on deep reinforcement learning

【技术实现步骤摘要】
基于深度强化学习的5G移动负载均衡方法
本专利技术属于移动通信中无线网络
,涉及移动负载均衡优化方法,具体涉及无线通信系统中一种基于深度强化学习的5G超密集微基站移动负载均衡方法。
技术介绍
随着5G时代的到来,由于用户的移动数据流量需求剧增,以及5G的无线频段具有更高的链路损耗,因此需要部署超密集网络来扩大系统容量,提高链路质量以及弥补覆盖盲区。然而,在大量部署微基站的同时,每个微基站的流量波动与负载状态随时间的变化相比宏基站更加剧烈,同时网络的拓扑结构具有很高的复杂性,这对于系统性能与用户的服务质量(QualityofService,QoS)的稳定是不利的。因此在超密集网络的场景下,基站间的负载均衡对于维持网络的鲁棒性具有更重要的意义,同时针对复杂的网络结构以及多样化的用户移动模式,找到一个较好的负载均衡方法是一个具有挑战性的问题。负载均衡问题目前具有广泛的研究,但是,传统的基于强化学习的负载均衡方法因为不能处理连续的动作空间与状态空间,需要对状态空间与动作空间进行离散化,即通过构建表格环境来解决负载均衡的优化问题。但这种方法会受到维数诅咒的影响,即动作空间与状态空间的维度会随着自由度的增加呈指数级的增长,无法适用于复杂的超密集网络环境。
技术实现思路
为解决上述问题,本专利技术针对负载均衡领域中的移动负载均衡进行研究。对于移动负载均衡来说,本专利技术主要研究通过调整小区个体偏移量参数,实现基站间的用户转移,从而达到负载均衡的目的。基于此,本专利技术提出一种以最大化累积折扣奖励为目标,基于深度强化学习方法,采用带有优先级经验池与归一化奖励函数的高稳定性低空间复杂度5G超密集网络场景下行用户连接方法,联合调整所有微基站的小区偏置值,解决超密集微基站中的负载均衡问题,以实现负载均衡。该方法利用深度神经网络拟合动作空间和状态动作对的价值,无需对状态空间与动作空间进行离散化,即无需建立表格环境,因此不会受到维数诅咒的影响。为了达到上述目的,本专利技术提供如下技术方案:基于深度强化学习的5G移动负载均衡方法,包括如下步骤:第一步:初始化参数初始化参数包括:隐藏层与神经元数量Nhid、学习率α、折扣因子γ、软更新因子τ、小批量数据集大小K、经验池容量切换迟滞参数Hyst、物理资源块个数NPRB、动作网络的输出动作取值范围[Ocmin,Ocmax]和载波频率fc;第二步:开始进行每一轮循环,具体流程如下:(一)从已完成初始化的系统环境中获取初始状态,本步骤包括如下流程:(1)计算用户的信干噪比,对于目标基站为s的用户u,其在时刻t的信干噪比SINR定义为:其中,为干扰基站的集合,Ps和Pi分别是目标基站和干扰基站的发射功率,和分别是用户u在时刻t到目标基站s与干扰基站i的信道增益,N0为噪声功率,通过信道估计得到;获得SINR后,转入步骤(2);(2)计算每个用户在一个物理资源块上的最大数据传输速率,在一个PRB上,用户u在时刻t的最大数据传输速率定义如下:其中,BPRB为一个PRB的带宽,获得后,转入步骤(3);(3)计算每个用户所需PRB的数量,假设所有用户都是保证比特速率用户,并且在时刻t所需速率为用户u在时刻t所需要的PRB的数量为:其中,表示用户u在时刻t所需速率,表示用户u在时刻t的最大数据传输速率,表示向上取整运算;获得后,转入步骤(4);(4)计算每个基站的负载,基站s在时刻t的负载定义为用户所需PRB的数量与该基站PRB总数的比值:其中,Ns为基站s的PRB总数,为基站s在时刻t的用户集合;获得后,转入步骤(5);(5)获得初始状态,采用两部分组成状态空间,分别为基站的去均值化负载和边缘用户比例:其中,为基站的去均值化负载,为系统内所有基站的平均负载,N为系统内总的基站数,到为基站{s1,s2,…,sN}的边缘用户比例,根据A4事件确定;(二)获取初始状态后,开始进行每轮内部的每一小步循环;本步骤包括如下流程:(1)选择动作st为系统在时刻t的状态,由第二步的流程(一)中的步骤(5)确定,为动作网络在参数为θa时的策略,输出动作值定义为各个基站的小区偏移量:其中为各个基站的小区偏移量,上下界取值[Ocmin,Ocmax]可根据网络运行情况自行确定,输出动作值满足获得at后,转入步骤(2);(2)将动作at与环境交互,得到奖励值rt以及观测到下一个状态st+1:其中为基站s在时刻t的负载;获得r(st,at)后,转入步骤(3);(3)计算在时刻t的状态动作组合的优先级pt,采用改进版的经验池,使用时间差分误差来表示优先级:其中为目标评价网络输出的评价值,为评价网络输出的评价值,用pt来表示获得pt后,转入步骤(4);(4)将样本信息(st,at,rt,st+1,pt)存储到经验池中,然后将当前状态st转移到下一时刻状态st+1;若经验池的容量已满,转入步骤(5),否则转入步骤(1);(5)从经验池中按照样本优先级选择K个样本,转入步骤(6);(6)更新评价网络参数θc,评价网络的损失函数定义为:利用小批量梯度下降法估计的梯度:其中,K是小批量数据集的大小;将该梯度进行反向传播更新评价网络的参数θc;更新完毕后,转入步骤(7);(7)更新动作网络参数θa,动作网络更新策略参数的公式如下:其中,为步长;将该梯度进行反向传播更新动作网络的参数θa;更新完毕后,转入步骤(8);(8)软更新目标网络参数,采用软更新对目标动作网络和目标评价网络的参数进行更新:其中,和分别是目标动作网络和目标评价网络在时刻t的参数,和分别是估计动作网络和估计评价网络在时刻t的参数,τ为软更新参数;第三步:结束当前小步的循环,若当前小步次数未达到设定的最大步数,则转入第二步的流程(二);否则转入第四步;第四步:结束当前轮次的循环,若当前轮次次数未达到设定的最大轮次次数,则转入第二步;否则转入第五步;第五步:利用训练好的动作网络实现移动负载均衡,将系统内各个基站的状态作为动作网络的输入,得到动作网络的输出值并作用到系统中的各个基站,根据A3事件对用户进行切换。进一步的,所述奖励值的取值区间为[-1,1]。与现有技术相比,本专利技术具有如下优点和有益效果:本专利技术能够实现用户与基站之间的重新分配,降低过载小区的负载,实现系统的负载均衡,不需要任何无线环境的先验知识,可以通过探索环境自动地学习到最优的移动负载均衡(MobileLoadBalancing,MLB)策略;本专利技术采用了归一化的reward和带有优先级的经验池,因此具有较高的稳定性和负载均衡能力,这对于5G超密集网络(UltraDenseNetwork,UDN)场景下的网络性能鲁棒性的提高本文档来自技高网...

【技术保护点】
1.基于深度强化学习的5G移动负载均衡方法,其特征在于,包括如下步骤:/n第一步:初始化参数/n初始化参数包括:隐藏层与神经元数量N

【技术特征摘要】
1.基于深度强化学习的5G移动负载均衡方法,其特征在于,包括如下步骤:
第一步:初始化参数
初始化参数包括:隐藏层与神经元数量Nhid、学习率α、折扣因子γ、软更新因子τ、小批量数据集大小K、经验池容量切换迟滞参数Hyst、物理资源块个数NPRB、动作网络的输出动作取值范围[Ocmin,Ocmax]和载波频率fc;
第二步:开始进行每一轮循环,具体流程如下:
(一)从已完成初始化的系统环境中获取初始状态,本步骤包括如下流程:
(1)计算用户的信干噪比,对于目标基站为s的用户u,其在时刻t的信干噪比SINR定义为:



其中,为干扰基站的集合,Ps和Pi分别是目标基站和干扰基站的发射功率,和分别是用户u在时刻t到目标基站s与干扰基站i的信道增益,N0为噪声功率,通过信道估计得到;获得SINR后,转入步骤(2);
(2)计算每个用户在一个物理资源块上的最大数据传输速率,在一个PRB上,用户u在时刻t的最大数据传输速率定义如下:



其中,BPRB为一个PRB的带宽,获得后,转入步骤(3);
(3)计算每个用户所需PRB的数量,假设所有用户都是保证比特速率用户,并且在时刻t所需速率为用户u在时刻t所需要的PRB的数量为:



其中,表示用户u在时刻t所需速率,表示用户u在时刻t的最大数据传输速率,表示向上取整运算;获得后,转入步骤(4);
(4)计算每个基站的负载,基站s在时刻t的负载定义为用户所需PRB的数量与该基站PRB总数的比值:



其中,Ns为基站s的PRB总数,为基站s在时刻t的用户集合;获得后,转入步骤(5);
(5)获得初始状态,采用两部分组成状态空间,分别为基站的去均值化负载和边缘用户比例:



其中,为基站的去均值化负载,为系统内所有基站的平均负载,N为系统内总的基站数,到为基站{s1,s2,…,sN}的边缘用户比例,根据A4事件确定;
(二)获取初始状态后,开始进行每轮内部的每一小步循环;本步骤包括如下流程:
(1)选择动作st为系统在时刻t的状态,由第二步的流程(一)中的步骤(5)确定,为动作网络在参数为θa时的策略,输出动作值定义为各个基站的小区偏移量:



其中为各个...

【专利技术属性】
技术研发人员:潘志文姚猛刘楠尤肖虎
申请(专利权)人:东南大学网络通信与安全紫金山实验室
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1