网络覆盖优化方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33990761 阅读:25 留言:0更新日期:2022-07-02 09:37
本申请实施例提供了一种网络覆盖优化方法、装置、电子设备及存储介质,涉及网络通信技术领域。该方法包括:获取至少一个小区的天馈参数;将天馈参数输入至预先训练的网络覆盖优化模型,获得网络覆盖优化模型输出的天馈参数的增量;根据天馈参数的增量对天馈参数进行调整;其中,网络覆盖优化模型通过DDPG深度确定性策略梯度算法,以至少一个样本小区的天馈参数作为状态值、以至少一个样本小区的天馈参数的增量作为动作值以及以网络覆盖质量为奖励值训练而成。本申请实施例能够复杂度小,并且能够支持多小区多种天馈参数同时调整以达到通信网络最优化。通信网络最优化。通信网络最优化。

【技术实现步骤摘要】
网络覆盖优化方法、装置、电子设备及存储介质


[0001]本申请涉及网络通信
,具体而言,本申请涉及一种网络覆盖优化方法、装置、电子设备及存储介质。

技术介绍

[0002]在移动通信系统中,采用多基站、多小区共同组网解决连续覆盖的问题,不仅要求最小化弱覆盖和重叠覆盖对通信系统造成的影响,而且要求最小化网络结构干扰。从基站小区的角度,影响网络覆盖和干扰的主要因素包括天馈参数中的小区方向角、下倾角以及发射功率等。目前采用的主要方案有如下几种:
[0003]1、以专家经验为主对天馈参数进行反复调整,期望达到预期效果,首先,此种方法以经验为基础调整天馈参数完成干扰及覆盖优化成本高,且不一定能达到预期效果。
[0004]2、使用如遗传算法,粒子群算法等启发式算法进行天馈参数的优化,此种方法复杂度高,搜索速度慢,且不一定能够找到全局最优解;最后使用粒子群算法完成干扰及覆盖优化,容易陷入局部最优,导致效果差,精度低。

技术实现思路

[0005]本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的网络覆盖优化方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网络覆盖优化方法,其特征在于,包括:获取至少一个小区的天馈参数;将所述天馈参数输入至预先训练的网络覆盖优化模型,获得所述网络覆盖优化模型输出的所述天馈参数的增量;根据所述天馈参数的增量对所述天馈参数进行调整;其中,所述网络覆盖优化模型通过DDPG深度确定性策略梯度算法,以至少一个样本小区的天馈参数作为状态值、以所述至少一个样本小区的天馈参数的增量作为动作值以及以网络覆盖质量为奖励值训练而成,所述网络覆盖质量为利用所述动作值调整所述状态值后,所述至少一个小区的网络覆盖质量。2.根据权利要求1所述的网络覆盖优化方法,其特征在于,训练完成前的网络覆盖优化模型包括动作子模型和评价子模型;所述网络覆盖优化模型的训练方法包括,通过DDPG深度确定性策略梯度算法对所述网络覆盖优化模型进行迭代训练:对于任意一次迭代,获取当前时刻的初始状态值,根据所述初始状态值生成样本集,所述样本集中的每个所述样本包括对应时刻的状态值、动作值、奖励值以及对应时刻的下一时刻的状态值;将所述预设数量的样本中包括的状态值和动作值输入至当前迭代的评价子网络,获得所述评价子网络输出的样本对应时刻的期望奖励值;根据所述预设数量的样本对应的期望奖励值更新所述动作子模型中的参数,根据所述预设数量的样本中的奖励值和对应时刻的期望奖励值更新所述评价子模型中的参数,直至迭代次数达到预设阈值或所述网络覆盖优化模型中的参数迭代至收敛;保留训练完成后的所述网络覆盖优化模型中的动作子模型,作为所述预先训练的网络覆盖优化模型;其中,对应时刻的动作值由将所述对应时刻的状态值输入至当前迭代的所述动作子模型后,所述动作子模型的输出获得;对应时刻的下一时刻的状态值为根据对应时刻的动作值调整对应时刻的状态值后的状态值;对应时刻的奖励值为将对应时刻的下一时刻的状态值输入至环境仿真平台后,所述环境仿真平台的输出。3.根据权利要求2所述的网络覆盖优化方法,其特征在于,所述根据所述预设数量的样本对应的期望奖励值更新所述动作子模型中的参数,包括:对所述预设数量的样本的期望奖励值进行求和,将求和后平均值的负值作为所述动作子模型的目标函数;以最小化所述动作子模型的目标函数为目标,更新所述动作子模型中的参数,获得本次迭代后的动作子模型的参数。4.根据权利要求2所述的网络覆盖优化方法,其特征在于,所述将所述根据所述预设数量的样本中的奖励值和对应时刻的期望奖励值更新所述评价子模型中的参数,包括:根据每个样本的状态值和动作值确定每个样本对应时刻的下一时刻的状态值和动作值,将所述每个样本对应时刻的下一时刻的状态值和动作值输入至当前迭代的评价子网络,获得所述评价子网络输出的每个样本对应时刻的下一时刻期望奖励值;根据所述每个样本中包括的奖励值以及所述每个样本对应时刻的下一时刻期望奖励
值求和,获得累计奖励,计算所述累加奖励与所述样本对应时刻的期望奖励值的差值的平方,作为所述每个样本的期望偏差;根据所述预设数量的样本的期望偏差的平均值,获得所述评价子模型的目标函数;以最小化所述评价子模型的目标函数为目标,更新所述评价子模型中的参数,获得本次迭代后的评价子模型的参数。5.根据权利要求2所述的网络覆盖优化方法,其特征在于,所述通过DDPG深度确定性策略梯度算法对所述网络覆盖优化模型进行迭代训练,还包括:对于任意一次迭代,将上一次迭代的初始状态值作为当前迭代的初始状态值;将上一次迭代后...

【专利技术属性】
技术研发人员:常世元李高盛徐溪明李玉诗张斌
申请(专利权)人:大唐移动通信设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1