基站规划方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37395165 阅读:16 留言:0更新日期:2023-04-27 07:32
本公开提供了一种基站规划方法、装置、电子设备及存储介质,涉及人工智能技术领域。本公开的基站规划方法,通过深度强化学习的训练模式对任意地形内的多个信号塔进行强化训练,使得每个信号塔可以根据当下的建设方案来朝着最优的位置进行移动。在保证目标区域内信号完全覆盖的前提下,同时保证目标区域内信号基站建设数量最少,以此降低基站的建设成本。以此降低基站的建设成本。以此降低基站的建设成本。

【技术实现步骤摘要】
基站规划方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及一种基站规划方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,我国信息通信技术发展非常迅速,其中,信息通信基础设施是增强国家实力、维护国家安全和丰富人民生活的关键内容。尤其是随着国家5G技术的发展和推广,5G基站建设又是未来通信基础设施的重要工作内容。而基站选址又是基站建设的基础,选择合理的基站地址规划是基站建设的一项重要内容。在通信基础设施中重复建设是一个现存的十分普遍的问题,重复建设的基站大大增加了建设成本。
[0003]基于此,如何合理选择基站的站址,以降低基站的建设成本成为了亟需解决的技术问题。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开提供一种基站规划方法、装置、电子设备及存储介质,至少在一定程度上克服相关技术中传统基站建设成本较高的问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种基站规划方法,包括:步骤S210:获取目标区域内各个信号基站在t时刻的第一环境观测值根据所述第一环境观测值和基站动作学习网络,确定各个信号基站的执行动作步骤S220:根据所述执行动作更新所有信号基站的当前状态S
t
更新为S
t+1
,判断S
t+1
是否达到终止状态,并设定的值,获取各个信号基站的奖励反馈确定第一状态元组并将所述第一状态元组并将所述第一状态元组存放至经验回放池B中,其中,所述奖励反馈与信号基站的信号覆盖范围、信号衰减以及信号基站之间的通信连接相关;步骤S230:当S
t+1
达到终止状态时,退出当前训练阶段,重新执行步骤S210至步骤S220,当满足数据收集结束条件时,从所述经验回放池B中取出H个的历史样本根据H个的历史样本根据H个的历史样本第一损失函数和第二损失函数,更新基站学习网络和基站动作学习网络的网络参数。
[0008]在本公开的一个实施例中,在步骤S210之前,所述方法还包括:初始化所述基站学习网络和所述基站动作网络的网络参数;初始化所述经验回放池B的大小;初始化所述目标区域以及所述目标区域内所有信号基站的初始坐标。
[0009]在本公开的一个实施例中,通过以下步骤获取所述目标区域内各个信号基站的奖励反馈,包括:获取所述目标区域内各个信号基站的信号覆盖范围、传播步长、信号基站之间的通信连接信息,其中,所述通信连接信息为信号基站之间的通信连接状态;根据所述信号覆盖范围,确定所述目标区域内各个信号基站的第一奖励值;根据所述传播步长和预设信号衰减系数,确定所述目标区域内各个信号基站的第二奖励值;根据所述信号之间的通信连接信息,确定所述目标区域内各个信号基站的第三奖励值;根据所述第一奖励值、所述第二奖励值、所述第三奖励值以及每个奖励值对应的权重,确定所述目标区域内各个信号基站的奖励反馈。
[0010]在本公开的一个实施例中,根据所述信号之间的通信连接信息,确定所述目标区域内各个信号基站的第三奖励值,包括:确定奖励C,其中,C为正数;当根据所述通信连接信息,确定所述目标区域内的目标信号基站与所述目标区域内其他所有信号基站均未存在通信连接时,确定所述目标基站的第三奖励值为

C;当根据所述通信连接信息,确定所述目标区域内的目标信号基站与所述目标区域内其他信号基站存在通信连接时,确定所述目标基站的第三奖励值为C。
[0011]在本公开的一个实施例中,根据所述第一奖励值、所述第二奖励值、所述第三奖励值以及每个奖励值对应的权重,确定所述目标区域内各个信号基站的奖励反馈,包括:确定第一奖励值对应的第一权重,第二奖励值对应的第二权重,以及第三奖励值对应的第三权重;通过以下公式计算所述目标区域内第i个信号基站的奖励反馈:r
i
=a1r
i1
+a2r
i2
+a3r
i3
;其中,r
i
为所述目标区域内第i个信号基站的奖励反馈,a1为第一权重,r
i1
为所述目标区域内第i个信号基站的第一奖励值,a2为第二权重,r
i2
所述目标区域内第i个信号基站的第二奖励值,a3为第三权重,r
i3
所述目标区域内第i个信号基站的第三奖励值。
[0012]在本公开的一个实施例中,根据H个的历史样本在本公开的一个实施例中,根据H个的历史样本第一损失函数和第二损失函数,更新基站学习网络和基站动作学习网络的网络参数,包括:根据H个的历史样本据H个的历史样本和第一损失函数,更新所述基站学习网络的第一网络参数θ
Q
;根据H个的历史样本和第二损失函数,更新所述基站动作学习网络的第二网络参数根据所述第一网络参数θ
Q
和所述第二网络参数更新所述基站学习网络和所述基站动作学习网络对应的TARGET网络参数。
[0013]在本公开的一个实施例中,所述目标区域内的每个信号基站维护一个基站学习网络和一个基站动作学习网络,所述基站学习网络用于指导信号基站对所述基站动作学习网络进行训练。
[0014]根据本公开的另一个方面,提供一种基站规划装置,包括:观测值获取模块,用于获取目标区域内各个信号基站在t时刻的第一环境观测值根据所述第一环境观测值和基站动作学习网络,确定各个信号基站的执行动作执行模块,用于根据所述执行动作更新所有信号基站的当前状态S
t
更新为S
t+1
,判断S
t+1
是否达到终止状态,并设定的值,获取各个信号基站的奖励反馈的值,获取各个信号基站的奖励反馈确定第一状态元组并将所述第一状态元组
存放至经验回放池B中,其中,所述奖励反馈与信号基站的信号覆盖范围、信号衰减以及信号基站之间的通信连接相关;参数更新模块,用于当S
t+1
达到终止状态时,退出当前训练阶段,重复执行所述观测值获取模块和所述执行模块的功能,当满足数据收集结束条件时,从所述经验回放池B中取出H个的历史样本所述经验回放池B中取出H个的历史样本根据H个的历史样本第一损失函数和第二损失函数,更新基站学习网络和基站动作学习网络的网络参数。
[0015]在本公开的一个实施例中,上述装置还包括初始化模块,该初始化模块,用于初始化所述基站学习网络和所述基站动作网络的网络参数;初始化所述经验回放池B的大小;初始化所述目标区域以及所述目标区域内所有信号基站的初始坐标。
[0016]在本公开的一个实施例中,上述执行模块,还用于通过以下步骤获取各个信号基站的奖励反馈,包括:获取所述目标区域内各个信号基站的信号覆盖范围、传播步长、信号基站之间的通信连接信息,其中,所述通信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基站规划方法,其特征在于,包括:步骤S210:获取目标区域内各个信号基站在t时刻的第一环境观测值根据所述第一环境观测值和基站动作学习网络,确定各个信号基站的执行动作步骤S220:根据所述执行动作更新所有信号基站的当前状态S
t
更新为S
t+1
,判断S
t+1
是否达到终止状态,并设定的值,获取各个信号基站的奖励反馈确定第一状态元组确定第一状态元组并将所述第一状态元组存放至经验回放池B中,其中,所述奖励反馈与信号基站的信号覆盖范围、信号衰减以及信号基站之间的通信连接相关;步骤S230:当S
t+1
达到终止状态时,退出当前训练阶段,重新执行步骤S210至步骤S220,当满足数据收集结束条件时,从所述经验回放池B中取出H个的历史样本根据H个的历史样本第一损失函数和第二损失函数,更新基站学习网络和基站动作学习网络的网络参数。2.根据权利要求1所述的基站规划方法,其特征在于,在步骤S210之前,所述方法还包括:初始化所述基站学习网络和所述基站动作网络的网络参数;初始化所述经验回放池B的大小;初始化所述目标区域以及所述目标区域内所有信号基站的初始坐标。3.根据权利要求1所述的基站规划方法,其特征在于,通过以下步骤获取所述目标区域内各个信号基站的奖励反馈,包括:获取所述目标区域内各个信号基站的信号覆盖范围、传播步长、信号基站之间的通信连接信息,其中,所述通信连接信息为信号基站之间的通信连接状态;根据所述信号覆盖范围,确定所述目标区域内各个信号基站的第一奖励值;根据所述传播步长和预设信号衰减系数,确定所述目标区域内各个信号基站的第二奖励值;根据所述信号之间的通信连接信息,确定所述目标区域内各个信号基站的第三奖励值;根据所述第一奖励值、所述第二奖励值、所述第三奖励值以及每个奖励值对应的权重,确定所述目标区域内各个信号基站的奖励反馈。4.根据权利要求3所述的基站规划方法,其特征在于,根据所述信号之间的通信连接信息,确定所述目标区域内各个信号基站的第三奖励值,包括:确定奖励C,其中,C为正数;当根据所述通信连接信息,确定所述目标区域内的目标信号基站与所述目标区域内其他所有信号基站均未存在通信连接时,确定所述目标基站的第三奖励值为

C;当根据所述通信连接信息,确定所述目标区域内的目标信号基站与所述目标区域内其他信号基站存在通信连接时,确定所述目标基站的第三奖励值为C。
5.根据权利要求3所述的基站规划方法,其特征在于,根据所述第一奖励值、所述第二奖励值、所述第三奖励值以及每个奖励值对应的权重,确定所述目标区域内各个信号基站的奖励反馈,包括:确定第一奖励值对应的第一权重,第二奖励值对应的第二权重,以及第三奖励值对应的第三权重;通过以下公式计算所述目标区域内第i个信号基站的奖励反馈...

【专利技术属性】
技术研发人员:莫薇
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1