基于强化学习的移动性负载均衡方法技术

技术编号:33735014 阅读:22 留言:0更新日期:2022-06-08 21:31
本发明专利技术是一种基于强化学习的移动性负载均衡方法,首先基于各基站剩余负载构建优化目标,再将移动性负载均衡问题建模成马尔科夫决策过程,然后使用无模型的深度强化学习方法即柔性动作

【技术实现步骤摘要】
基于强化学习的移动性负载均衡方法


[0001]本专利技术属于无线通信中的负载均衡领域,具体涉及基于强化学习的移动性负载均衡方法。

技术介绍

[0002]移动性负载均衡(Mobility Load Balance,MLB)根据网络中各基站负载状态实时调整移动性参数—个体小区偏移(Cell Individual Offset,CIO),从而将重载基站中部分用户切换到轻载基站,实现各基站之间负载均衡。强化学习可以通过智能体和环境进行互动来学习最优策略,因此可用于解决移动性参数的调整问题。现有的基于强化学习的移动性负载均衡方法对状态空间定义不全面,优化目标的设计只侧重负载均衡性,且采用的强化学习方法不适合在高维度动作空间使用。本专利技术基于强化学习的移动性负载均衡方法在状态空间中增加基站的边缘用户信息,采用适合高维度动作空间的强化学习进行训练,优化目标是改善网络负载不均衡性,降低网络负载,提高网络接入新用户能力。

技术实现思路

[0003]技术问题:本专利技术的目的是提供一种基于强化学习的移动性负载均衡方法,能够在改善网络负载均衡性的同本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的移动性负载均衡方法,其特征在于,首先基于各基站剩余负载构建优化目标,再将移动性负载均衡问题建模成马尔科夫决策过程,然后使用无模型的深度强化学习方法即柔性动作

评价方法对最佳移动性参数调整进行求解,通过操作维护管理系统网管层与网络环境的交互,不断训练强化学习策略网络,得到每一个网络负载状态下的最优移动性参数,改善网络中负载不均衡性,降低网络负载,提高网络接入新用户能力。2.根据权利要求1所述的基于强化学习的移动性负载均衡方法,其特征在于,所述移动性负载均衡问题建模成马尔科夫决策过程,模型包括四个要素,表示为<S,A,P,R>;其中S是状态空间,用于描述网络环境的状态集合,A是动作空间,表示实现负载均衡的移动性参数集合,P表示状态转移概率,R是奖励函数,用来表示环境对所选移动性参数的反馈;其中状态空间S、动作空间A和奖励函数R三要素具体定义如下:状态空间:状态是对网络环境的描述,在执行动作后发生变化,并且具有马尔可夫性质;选择状态空间元素为各个基站负载状态和各个基站边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量,具体使用何种统计度量值可由运营商根据实际情况自行确定;记t时刻M个基站负载分别为ρ1(t),ρ2(t),


M
(t),对应的边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量为Dis
RSRP,1
(t),,Dis
RSRP,2
(t),,

,Dis
RSRP,M
(t),t时刻网络状态为:s(t)=[ρ1(t),ρ2(t),...,ρ
M
(t),Dis
RSRP,1
(t),Dis
RSRP,2
(t),...,Dis
RSRP,M
(t)]
T
.,
ꢀꢀꢀ
(1)动作空间:在移动性负载均衡问题中,移动性参数对应马尔可夫决策过程中动作,由OAM系统告知基站,基站进行相应修改,从而实现用户切换,完成负载均衡;该移动性参数即为个体小区偏移CIO,如基站i相对基站j的个体小区偏移记为CIO
i,j
,t时刻动作为:其中为了满足任意精度的控制需求,CIO
i,j
定义为[CIO
min
,CIO
max
]范围内的连续变量,这种动作空间称为连续空间,CIO
min
是CIO
i,j
可以取的最小值,CIO
max
是CIO
i,j
可以取的最大值,这些值由运营商根据实际情况自行确定,并且为了防止乒乓切换,需要满足CIO
i,j


CIO
j,i
;奖励函数:奖励函数用来衡量上一时刻网络状态下所选择动作对网络产生的影响,强化学习通过不断训练来学习使得累计奖励最大化的最优策略;本发明将优化目标设置为改善网络负载均衡性、降低网络负载、提高网络接入新用户能力,因此奖励函数定义为各个基站剩余负载的幂函数合成,并且为了避免切换操作导致邻基站超载,引入惩罚项

1,记t+1时刻,M个基站剩余容量分别为1

ρ1(t+1),1

ρ2(t+1),

,1

ρ
M
(t+1),则奖励函数表示为:当k=2时,奖励函数为各个基站剩余容量的平方平均合成,当k=1时,奖励函数为各个基站剩余容量的算术平均合成,当k

0时,奖励函数为各个基站剩余容量的几何平均合成,当k=

1时,奖励函数为各个基站剩余容量的调和平均合成;不同合成方式对群体效用和均衡效用有不同的重要性分配,可以根据对网络中均衡性要求的高低选择不同的k值,具体k
值可由运营商根据实际情况自行确定。3.根据权利要求1所述的基于强化学习的移动性负载均衡方法,其特征在于,所述方法包括如下步骤:第一步:收集网络信息,初始化参数;第二步:进行SAC训练学习最优移动性参数的选取策略。4.根据权利要求3所述的基于强化学习的移动性负载均衡方法,其特征在于,第一步所述收集网络信息,初始化参数包括如下流程:步骤1.3,收集网络信息:网络信息包括参与负载均衡基站集合、状态空间中边缘用户的服务基站和邻基站参考信号接收功率最小差值的统计度量方式、移动性参数CIO最小值CIO
min
、移动性参数CIO最大值CIO
max
,以及奖励函数的k值,这些值可由运营商根据实际情况自行确定;步骤1.4,初始化强化学习参数:初始化强化学习参数包括学习速率lr、折扣因子γ、神经网络层数h、每层神经元个数n、熵正则化系数α、多元平均插值因子λ、每轮互动次数steps_per_episode、开始使用策略网络输出动作的步长start_steps、开始更新网络权值系数的步长update_after、更新频数update_every、批量大小batch_size、经验回放池大小replay_size、两个Q函数权值系数θ1、θ2和梯度下降更新步长τ
Q,1
、τ
Q,2
、策略网络π
φ
(a|s)的权值系数φ和梯度下降更新步长τ
π
,这些值可由运营商根据实际情况自行确定。5.根据权利要求3所述的基于强化学习的移动性负载均衡方法,其特征在于,第二步所述进行SAC训练学习最优移动性参数的选取策略包括如下流程:步骤2.1,用t表示当前训练步数,令目标网络权值系数为θ
targ,1
(t)=θ1(t),θ
targ,2
(t)=θ2(t),θ
targ,1
(t)、θ
targ,2
(t)分别表示2个目标Q网络的权值系数;初始化t=1;步骤2.2,收集基站负载和基站边缘用户服务基站和邻基站RSRP最小差值的统计度量,获得状态s(t)=[ρ1(t),ρ2(t),...,ρ
M
(t),Dis
RSRP,1
(t),Dis
RSRP,2
(t),...,Dis
RSRP,M
(t)]
T
;步骤2.3,如果t<start_steps,在动作空间随机采样生成当前动作a(t);如果t≥start_steps,意味着开始使用策略网络生成当前动作,依据策略网络π
φ
(a|s)选择...

【专利技术属性】
技术研发人员:潘志文李紫誉刘楠尤肖虎
申请(专利权)人:网络通信与安全紫金山实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1