多代理策略机器学习制造技术

技术编号:38905268 阅读:7 留言:0更新日期:2023-09-22 14:23
公开了一种操作波束成形无线通信系统的方法,该系统包括多个无线电节点,行动者神经网络与每个无线电节点相关联,其中,每个行动者神经网络还与批评者网络相关联,该方法包括:基于由每个行动者神经网络的相关联的批评者网络提供的学习反馈,训练每个行动者神经网络以用于控制至少一个相关联的无线电节点,该学习反馈基于由行动者神经网络针对批评者网络所提供的操作信息。本公开还涉及相关的设备和方法。和方法。和方法。

【技术实现步骤摘要】
【国外来华专利技术】多代理策略机器学习


[0001]本公开涉及特别是用于控制和/或监视无线通信网络的多代理系统。

技术介绍

[0002]蜂窝通信领域正在经历爆炸性发展,渗透到越来越广泛的社会和行业领域。下一代无线通信网络将应对许多新的用例。除了移动宽带的预期增强(这次由新兴的扩展现实(XR)应用驱动),新的服务(例如超可靠低延迟和大规模机器型通信)对未来的通信网络提出了许多相当具有挑战性的要求,从更高的数据速率、更低的延迟开始,到更高的能效以及更低的运营和资本支出。因此,这样的网络预计相当复杂,并且难以采用传统的方式进行建模、分析和管理。
[0003]此外,因为观察到明显的致密化趋势,预计具有更复杂的运营制度和环境。

技术实现思路

[0004]本公开的一个目的是提供促进多代理系统的改进处理的方法,特别是在机器学习的上下文中。
[0005]公开了一种操作波束成形无线通信系统的方法。所述系统包括多个无线电节点。行动者神经网络与每个无线电节点相关联。此外,每个行动者神经网络还与批评者网络相关联。所述方法包括:训练每个行动者神经网络以用于控制至少一个相关联的无线电节点。针对行动者神经网络的训练是基于由行动者神经网络的相关联的批评者网络提供的学习反馈,所述学习反馈基于由所述行动者神经网络和/或与所述行动者神经网络相关联的所述无线电节点针对所述批评者网络所提供的操作信息。
[0006]此外,描述了一种波束成形无线通信系统。所述系统包括多个无线电节点。行动者神经网络(ANN)与每个无线电节点相关联。此外,每个行动者神经网络还与批评者网络相关联。所述系统适于:训练每个行动者神经网络,所述训练用于控制至少一个相关联的无线电节点。针对行动者神经网络的训练是基于由行动者神经网络的相关联的批评者网络提供的学习反馈。所述学习反馈基于由所述行动者神经网络和/或与所述行动者神经网络相关联的所述无线电节点针对所述批评者网络所提供的操作信息。
[0007]讨论了一种操作用于无线通信系统的行动者神经网络的方法。所述行动者神经网络与至少一个无线电节点相关联。所述行动者神经网络与批评者网络相关联。所述方法包括:训练所述行动者神经网络以用于控制所述至少一个相关联的无线电节点。所述训练基于由所述行动者神经网络的相关联的批评者网络提供的学习反馈,所述学习反馈基于由所述行动者神经网络和/或与所述行动者神经网络相关联的所述无线电节点针对所述批评者网络所提供的操作信息。
[0008]还考虑了一种用于无线通信系统的行动者神经网络。所述行动者神经网络与至少一个无线电节点相关联。所述行动者神经网络与批评者网络相关联。基于由所述行动者神经网络的相关联的批评者网络提供的学习反馈来训练所述行动者神经网络以用于控制至
少一个相关联的无线电节点。所述学习反馈基于由所述行动者神经网络和/或与所述行动者神经网络相关联的所述无线电节点针对所述批评者网络所提供的操作信息。
[0009]本文所述的方法允许有效训练行动者神经网络,其中,可用于一个行动者神经网络的不完整信息可以由批评者网络来补偿。因此,可以考虑其他行动者神经网络或无线电节点的操作信息来训练行动者神经网络,这些操作信息对于被训练的行动者神经网络可能是未知的。
[0010]一般而言,批评者网络(或批评者网络中的每个批评者网络)可以从多个所述行动者神经网络接收操作信息。所述多个行动者神经网络可以包括未从所述批评者网络接收学习反馈和/或未由所述批评者网络训练和/或未与所述批评者网络相关联和/或与另一个批评者网络相关联的行动者神经网络(ANN)。在某些情况下,所述多个ANN可以表示与所述多个无线电节点或其子集相关联的ANN。一个ANN的所述学习反馈可以基于来自所述多个ANN的操作信息,和/或基于来自所述多个ANN的操作信息来确定。可以认为所述学习反馈表示和/或基于由所述批评者网络执行的机器学习和/或由所述批评者网络提供给所述ANN的机器学习。批评者网络可以是例如用于机器学习和/或人工智能的批评者神经网络。所述批评者网络可以基于操作所述ANN(例如其副本)来确定ANN和/或无线电节点和/或代理的学习反馈。所述副本可以对应于由所述操作信息(特别是活动信息)表示的用于操作所述无线电节点的ANN的状态。所述批评者网络可以是适于在一个或多个ANN上监视和/或评估和/或执行强化学习的神经网络。
[0011]来自一个或多个ANN的操作信息可以表示用于批评者网络的训练数据。对于ANN,所述学习反馈和/或操作信息和/或本地(例如由相关联的无线电节点执行)测量和/或活动信息和/或无线电环境信息可以被视为训练数据。所述学习反馈可以表示例如用于和/或来自基于奖励的学习的奖励信息、和/或用于操作ANN和/或相关联的无线电节点的控制信息和/或参数。在某些情况下,所述学习反馈可以表示和/或确定ANN和/或训练后和/或更新后的ANN的新的学习状态或操作状态。应当注意,所述训练可以在网络的实际运营之前,和/或在运营网络时被执行,例如以便为用户提供无线电接入。至少从正在被训练的网络的角度来看,术语“训练”和“学习”可以被认为是基本上可交换的。一般而言,基于奖励的学习也可以被称为强化学习。本文所述的方法可以包括控制无线电节点和/或提供操作信息和/或接收学习反馈的多个循环。
[0012]与另一个神经网络相关联的神经网络可以被连接或能够连接到所述另一个网络以用于传送和/或交换信息和/或反馈,例如操作信息和/或学习反馈。所述连接可以是有线的和/或无线的,例如经由无线电接入网络或回程网络,特别是IAB网络。与无线电节点相关联的网络可以是被连接或能够连接到所述无线电节点和/或被实现为所述无线电节点的一部分的网络,例如以控制所述无线电节点和/或从所述无线电节点接收信息,特别是操作信息。可以认为ANN或批评者网络之类的神经网络被实现为和/或包括固件和/或软件和/或硬件和/或数据,例如训练数据和/或操作数据。特别地,硬件可以包括处理电路和/或通信电路;所述神经网络和/或其软件或固件组件可以适于操作或可操作以在所述处理电路上运行,和/或使用所述通信电路以与被连接或可连接的网络和/或设备进行通信。一般而言,行动者神经网络可以是适于控制相关联的无线电节点的神经网络,例如在要被用于通信(例如接收和/或发送)和/或调度和/或其他操作的波束成形方面。特别地,所述行动者神经网
络可以适于确定预编码器和/或预编码和/或链路自适应(例如确定MCS),以用于信令的发送和/或信令的接收。被实现和/或被连接或可连接以操作来控制无线电节点的ANN可以被视为代理。
[0013]可以认为所述操作信息可以包括无线电环境信息和/或经验。所述无线电环境信息和/或经验可以表示信道估计和/或测量和/或信号质量和/或信号强度和/或数据吞吐量和/或干扰和/或信令特性,特别是波束信令特性,例如与一个或多个波束(特别是无线电节点的接收波束和/或发送波束)相关。可以基于从其他无线电节点或设备(例如连接到无线电节点的无线设备)接收的反馈,向无线电节点提供与发送波束相关的信息。可以例如基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种操作波束成形无线通信系统的方法,所述系统包括多个无线电节点,行动者神经网络与每个无线电节点相关联,其中,每个行动者神经网络还与批评者网络相关联,所述方法包括:基于由每个行动者神经网络的相关联的批评者网络提供的学习反馈,训练每个行动者神经网络以用于控制至少一个相关联的无线电节点,所述学习反馈基于由所述行动者神经网络和/或与所述行动者神经网络相关联的所述无线电节点针对所述批评者网络所提供的操作信息。2.一种波束成形无线通信系统,所述系统包括多个无线电节点,行动者神经网络与每个无线电节点相关联,其中,每个行动者神经网络还与批评者网络相关联,所述系统适于:基于由每个行动者神经网络的相关联的批评者网络提供的学习反馈,训练每个行动者神经网络以用于控制至少一个相关联的无线电节点,所述学习反馈基于由所述行动者神经网络和/或与所述行动者神经网络相关联的所述无线电节点针对所述批评者网络所提供的操作信息。3.一种操作用于无线通信系统的行动者神经网络的方法,所述行动者神经网络与至少一个无线电节点相关联,其中,所述行动者神经网络还与批评者网络相关联,所述方法包括:基于由所述行动者神经网络的相关联的批评者网络提供的学习反馈,训练所述行动者神经网络以用于控制至少一个相关联的无线电节点,所述学习反馈基于由所述行动者神经网络和/或与所述行动者神经网络相关联的所述无线电节点针对所述批评者网络所提供的操作信息。4.一种用于无线通信系统的行动者神经网络,所述行动者神经网络与至少一个无线电节点相关联,其中,所述行动者神经网络还与批评者网络相关联,基于由所述行动者神经网络的相关联的批...

【专利技术属性】
技术研发人员:李欣哲M
申请(专利权)人:瑞典爱立信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1