用于无线系统中基于深度强化学习（DRL）的调度的方法和系统技术方案

技术编号：36900814 阅读：32 留言：0更新日期：2023-03-18 09:20

本文公开了用于基于深度强化学习(DRL)的分组调度的系统和方法。在一个实施例中，一种由网络节点执行的用于基于DRB的调度的方法，包括：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行基于DRL的调度过程，该偏好向量定义用于与该多个期望网络性能行为中的该一个期望网络性能行为相关的该多个网络性能指标的权重。以此方式，以其中联合优化多个性能指标的方式来提供基于DRL的调度。性能指标的方式来提供基于DRL的调度。性能指标的方式来提供基于DRL的调度。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于无线系统中基于深度强化学习(DRL)的调度的方法和系统
[0001]相关应用
[0002]本申请要求于2020年7月10日提交的临时专利申请序列号63/050,502的权益，其公开内容通过引用全部并入本文中。

[0003]本公开涉及诸如蜂窝通信系统之类的无线系统中的调度。

技术介绍

[0004]蜂窝基站(BS)同时服务于数十个或数百个用户设备(UE)。为了针对每个UE实现良好的服务质量(QoS)，BS需要在所服务的数据流之间有效地分发所共享的无线电资源。当前最先进的蜂窝网络通过在离散的时间跨度和频率切片上复用数据流来实现这一点，这些时间跨度和频率切片一起构成固定或可变大小的物理资源块(PRB)。
[0005]PRB通过在每个传输时间间隔(TTI)运行的调度算法而被分配给不同的数据流。因此，调度算法(也被称为调度器)是确保针对每个所服务的数据流的良好QoS的关键组分。在长期演进(LTE)网络中，调度主要使用启发式算法或针对不同的数据流的手动设定的优先级来完成。通用的调度算法包括轮询算法、比例公平算法、以及指数规则算法。轮询是基本调度算法之一。它基于UE的自从上次传输以来的时间对UE进行优先级排序，并因此在其决策制定中不考虑其他指标，诸如信道质量、公平性、或QoS要求。另一方面，比例公平尝试利用不同的信道质量以便向网络中的所有UE提供公平性。代替通过始终地调度具有最佳信道质量的UE来最大化网络性能，比例公平根据UE的预期数据速率与其平均数据速率的比率来对UE进行优先级排序。通过将UE的预期数据...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由网络节点(102)执行的用于基于深度强化学习DRL的调度的方法，所述方法包括：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程，所述偏好向量定义用于与所述多个期望网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。2.根据权利要求1所述的方法，进一步包括：分别获得用于所述多个期望网络性能行为的各网络性能指标集的多个偏好向量。3.根据权利要求1或2所述的方法，其中，所述多个网络性能指标包括：(a)分组大小，(b)分组延时，(c)服务质量QoS要求，(d)小区状态，或者(e)(a)
‑
(d)中的两项或更多项的组合。4.根据权利要求1至3中任一项所述的方法，进一步包括：分别从用于所述多个网络性能行为的各网络性能指标集的多个偏好向量中选择(502)所述偏好向量。5.根据权利要求4所述的方法，其中，从所述多个偏好向量中选择(502)所述偏好向量包括：基于一个或多个参数，从所述多个偏好向量中选择(502)所述偏好向量。6.根据权利要求5所述的方法，其中，所选择的偏好向量随时间改变。7.根据权利要求5或6所述的方法，其中，所述一个或多个参数包括一天中的时间或者业务类型。8.根据权利要求1至7中任一项所述的方法，其中，所述基于DRL的调度过程是深度Q学习网络DQN调度过程。9.根据权利要求1至8中任一项所述的方法，其中，所述基于DRL的调度过程针对多个传输时间间隔TTI中的每个TTI执行分组的时域调度。10.根据权利要求1至9中任一项所述的方法，进一步包括：在执行(206)所述基于DRL的调度过程之前，确定(204)用于所述期望网络性能行为的所述偏好向量。11.根据权利要求1至9中任一项所述的方法，进一步包括：在执行(206)所述基于DRL的调度过程之前，针对所述多个期望网络性能行为中的每个期望网络性能行为：针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量；基于所述训练的结果，从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204B)用于与所述期望网络性能行为相关的所述多个网络性能指标的所述偏好向量。12.一种用于基于深度强化学习DRL的调度的网络节点(102)，所述网络节点(102)适于：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程，所述偏好向量定义用于与所述多个期望
网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。13.根据权利要求12所述的网络节点(102)，其中，所述网络节点(102)进一步适于执行根据权利要求2至11中的任何一项所述的方法。14.一种用于基于深度强化学习DRL的调度的网络节点(102)，所述网络节点(102)包括处理电路，所述处理电路被配置为使所述网络节点(102)：使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程，所述偏好向量定义用于与所述多个期望网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。15.根据权利要求14所述的网络节点(102)，其中，所述处理电路进一步被配置为使所述网络节点(102)执行根据权利要求2至11中的任何一项所述的方法。16.一种训练基于深度强化学习DRL的调度过程的计算机实现的方法，所述方法包括：针对多个期望网络性能行为中的每个期望网络性能行为：针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量；以及基于所述训练的结果，从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204B)用于与所述期望网络性能行为相关的所述多个网络性能指标的偏好向量。17.一种用于训练基于深度强化学习DRL的调度过程的计算节点或网络节点，所述计算节点或网络节点适于：针对多个期望网络性能行为中的每个期望网络性能行为：针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量，基于相应的复合奖励函数，训练(204A)基于DRL的策略，每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量；以及基于所述训练的结果，从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204B)用于与所述期望网络性能行为相关的所述多个网络...

【专利技术属性】
技术研发人员：V，
申请(专利权)人：瑞典爱立信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人