使用深度Q学习的上行链路功率控制制造技术

技术编号:31693497 阅读:35 留言:0更新日期:2022-01-01 10:53
根据一方面,提供了一种用于控制终端设备上行链路传输功率的计算设备。每个终端设备被配置为基于两个功率控制参数确定上行链路传输功率:针对全路径损耗补偿的目标接收功率和路径损耗补偿系数。计算设备包括用于执行以下操作的部件。关于多个小区中的数据业务的信息被维护在数据库中。计算设备初始化深度Q学习网络,在深度Q学习网络中,状态被定义为功率控制参数的小区特定对,动作被定义为选择小区的功率控制参数的有效值,并且奖励基于关于数据业务的信息而被计算。计算设备训练深度Q学习网络以逼近Q值函数,基于此确定最优功率控制参数,并且引起将它们传输到接入节点。并且引起将它们传输到接入节点。并且引起将它们传输到接入节点。

【技术实现步骤摘要】
【国外来华专利技术】使用深度Q学习的上行链路功率控制


[0001]各种示例实施例涉及无线通信。

技术介绍

[0002]无线蜂窝网络的上行链路(UL)性能取决于每个用户使用的发送功率。每个用户用于上行链路传输的功率由服务小区控制。在5G NR和LTE中,使用开环和闭环功率控制的组合来调节终端设备(UE)的发送功率,以实现良好的整体上行链路性能。如果发送功率太高,则对相邻小区的干扰就会成为问题。另一方面,如果发送功率太低,则平均吞吐量和/或峰值吞吐量会降低,并且可能会发生覆盖丢失。服务小区向终端设备发送各种参数的值以用于控制上行链路传输功率。网络级别的挑战是决定这些参数的值使得小区中的用户实现最佳整体性能,而不会对相邻小区中的其他用户造成显著干扰。

技术实现思路

[0003]根据一方面,提供了独立权利要求的主题。实施例在从属权利要求中定义。本专利技术的各种实施例所寻求的保护范围由独立权利要求规定。
[0004]本专利技术还可以涉及一种用于控制多个小区中的多个终端设备的上行链路传输功率的计算设备,其中每个终端设备被配置为至少基于针对全路径损耗补偿本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于控制多个小区中的多个终端设备的上行链路传输功率的计算设备,其中每个终端设备被配置为至少基于针对全路径损耗补偿的每物理资源块PRB的目标接收功率和路径损耗补偿系数来确定其上行链路传输功率,所述计算设备包括至少一个处理器;以及包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使所述计算设备执行:在数据库中维护关于所述多个小区中涉及所述多个终端设备的数据业务的信息;初始化深度Q学习网络,其中

状态被定义为针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的对的集合,其中每个对对应于所述多个小区中的一个小区,

给定状态下的动作被定义为针对当前具有无效值的对,选择针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的有效值,以及

采取动作的奖励基于关于所述多个小区中的所述数据业务的所述信息而被计算,以优化在所述多个小区中的所有小区上的整体上行链路性能;利用多个随机状态和多个随机动作来训练所述深度Q学习网络以逼近Q值函数,其中每个随机状态最初包括具有随机有效值的针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的预定义数目的对,其中每个随机状态下的所述对中的其余对具有无效值,所述对中的所述其余对包括至少一个对;针对每个小区,基于所述Q值函数确定针对全路径损耗补偿的每PRB的最优目标接收功率和最优路径损耗补偿系数;以及引起向所述多个接入节点发送针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的优化值以用于向所述多个终端设备的进一步传输。2.根据权利要求1所述的计算设备,其中关于数据业务的所述信息可以包括针对所述多个小区中的每个小区的关于以下一项或多项的信息:业务密度、用户分布、所述小区内的终端设备的配置、信道特性、小区内干扰和小区间干扰。3.根据权利要求1或2所述的计算设备,其中所述至少一个存储器和所述计算机程序代码还被配置为与所述至少一个处理器一起使所述计算设备执行:接收关于所述多个小区中涉及所述多个终端设备的的数据业务的另外的信息;将关于数据业务的所述另外的信息存储到所述数据库,以补充或更新在所述数据库中维护的关于数据业务的所述信息;以及通过重复所述训练、所述确定和所述引起发送,来重新优化所述深度Q学习网络以考虑所述另外的信息。4.根据前述权利要求中任一项所述的计算设备,其中针对所述深度Q学习网络中的状态和动作的所述Q值函数被定义为针对所述状态和动作的所述奖励与在所述动作被执行时在所述状态之后的所有状态和动作的最大累积奖励的总和。5.根据前述权利要求中任一项所述的计算设备,其中所述深度Q学习网络的所述训练包括:a)生成随机状态的集合和在所述随机状态的集合中的每个随机状态下的可能随机动作的集合;b)使用所述随机状态的集合和所述可能动作的集合作为输入,将目标Q值函数计算为
贝尔曼等式的1步迭代其中是所述目标Q值函数,s
n+1
是在动作被采取时在初始状态s
n
之后的状态,是在所述状态s
n+1
下执行的动作,是在所述状态s
n
下采取所述动作得到的奖励,是包括所有可能动作的动作空间,以及是通过使用深度神经网络评估所有可能Q值而被计算的,其中c)将所述随机状态的集合和所述可能随机动作的集合馈送到所述深度神经网络以产生近似Q值函数Q(s,a),其中s是初始状态,并且α是在所述初始状态下被执行的动作;d)评估所述近似Q值函数与所述目标Q值函数之间的均方误差;e)更新所述深度神经网络的权重以最小化所述均方误差;f)利用相同的随机状态的集合和相同的可能随机动作的集合来重复步骤c)和e),直到预定义的重复次数被达到(307);以及g)利用不同的随机状态的集合和每次生成的对应的可能随机动作的集合来重复步骤a)到f),直到所述近似Q值函数与所述目标Q值函数之间的所述均方误差被检测为收敛。6.根据权利要求5所述的计算设备,其中所述贝尔曼等式的所述1步迭代的所述计算包括:使用所述数据库中维护的查找表或使用在线计算来计算所述奖励通过如下来计算针对初始状态s
n
和在所述初始状态下被执行的动作的每个组合生成后续状态s
n+1
和在所述后续状态s
n+1
下的所有的允许动作将所述后续状态和所有的所述允许动作馈送到所述神经网络并且取所产生的Q值中的最大Q值作为所述神经网络的输出;以及计算和的总和。7.根据前述权利要求中任一项所述的计算设备,其中针对全路径损耗补偿的每PRB的所述最优目标接收功率和所述最优路径损耗补偿系数的所述确定包括:1)生成零状态,在所述零状态下,针对所述多个小区中的所有小区的针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数具有无效值,其中所述零状态被定义为当前状态;2)将所述当前状态连同在所述当前状态下的所有可能动作输入到所述深度Q学习网络中,以产生针对所述当前状态的多个Q值作为输出;3)从针对所述当前状态的所述多个Q值中找到最优动作,所述最优动作是当在所述当前状态下被采取时产生所述多个Q值中的最大Q值以及针对全路径损耗补偿的每PRB的所述目标接收功率和所述路径损耗补偿系数的相关联的最优值的动作;4)依次针对有效值尚未被定义的下一小区设置所述最优值;5)将在所述当前状态下采取的所述最优动作之后的所述状态设置为所...

【专利技术属性】
技术研发人员:R
申请(专利权)人:诺基亚通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1