用于无线系统中基于深度强化学习(DRL)的调度的方法和系统技术方案

技术编号:36900814 阅读:32 留言:0更新日期:2023-03-18 09:20
本文公开了用于基于深度强化学习(DRL)的分组调度的系统和方法。在一个实施例中,一种由网络节点执行的用于基于DRB的调度的方法,包括:使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行基于DRL的调度过程,该偏好向量定义用于与该多个期望网络性能行为中的该一个期望网络性能行为相关的该多个网络性能指标的权重。以此方式,以其中联合优化多个性能指标的方式来提供基于DRL的调度。性能指标的方式来提供基于DRL的调度。性能指标的方式来提供基于DRL的调度。

【技术实现步骤摘要】
【国外来华专利技术】用于无线系统中基于深度强化学习(DRL)的调度的方法和系统
[0001]相关应用
[0002]本申请要求于2020年7月10日提交的临时专利申请序列号63/050,502的权益,其公开内容通过引用全部并入本文中。


[0003]本公开涉及诸如蜂窝通信系统之类的无线系统中的调度。

技术介绍

[0004]蜂窝基站(BS)同时服务于数十个或数百个用户设备(UE)。为了针对每个UE实现良好的服务质量(QoS),BS需要在所服务的数据流之间有效地分发所共享的无线电资源。当前最先进的蜂窝网络通过在离散的时间跨度和频率切片上复用数据流来实现这一点,这些时间跨度和频率切片一起构成固定或可变大小的物理资源块(PRB)。
[0005]PRB通过在每个传输时间间隔(TTI)运行的调度算法而被分配给不同的数据流。因此,调度算法(也被称为调度器)是确保针对每个所服务的数据流的良好QoS的关键组分。在长期演进(LTE)网络中,调度主要使用启发式算法或针对不同的数据流的手动设定的优先级来完成。通用的调度算法包括轮询算法、比例公平算法、以及指数规则算法。轮询是基本调度算法之一。它基于UE的自从上次传输以来的时间对UE进行优先级排序,并因此在其决策制定中不考虑其他指标,诸如信道质量、公平性、或QoS要求。另一方面,比例公平尝试利用不同的信道质量以便向网络中的所有UE提供公平性。代替通过始终地调度具有最佳信道质量的UE来最大化网络性能,比例公平根据UE的预期数据速率与其平均数据速率的比率来对UE进行优先级排序。通过将UE的预期数据速率与其平均数据速率相关联,可以针对所有UE实现公平性。然而,在该方法中没有考虑QoS要求。指数规则算法尝试将QoS意识引入到比例公平算法中,从而提供QoS和信道质量意识。这通过将UE的优先级以指数方式增加其当前的队首延时(head

of

line delay)来完成。
[0006]然而,在新无线电(NR)中,与上一代蜂窝系统相比,可以更灵活地调度可用的时间和频率资源。因此,有效地调度可用资源已变得更加复杂。增加的复杂度导致设计可有效地处理跨数据流的多种QoS要求的“良好”启发式算法的难度增加,并且还使得难以在动态单元状态上保持良好的蜂窝性能。为了促进复杂的调度策略,最近已提出了基于深度强化学习(DRL)的方案以用于蜂窝网络中的调度。
[0007]在无线电资源管理(RRM)中使用DRL是一个相对较新的领域。在高层次上,基于DRL的调度旨在通过受控试验来探索调度策略的空间,并随后利用这些知识来向所服务的UE分配无线电资源。在该领域中的工作包括I.Comsa、A.De

Domenico和D.Ktenas的“5G无线电接入网络中的QoS驱动的调度——一种强化学习方法(QoS

Driven Scheduling in5G Radio Access Networks

A Reinforcement Learning Approach)”(GLOBECOM 2017

2017IEEE全球通信会议,2017年,第1

7页,doi:10.1109/GLOCOM.2017.8254926),其在下文中被称为

Comsa论文”。Comsa论文的作者考虑到在LTE中使用的一组流行的调度算法。进而,他们在每个TTI应用DRL算法,以决定要应用哪种调度算法。其他工作包括Chinchali,S.、P.Hu、T.Chu、M.Sharma、M.Bansal、R.Misra、M.Pavone和S.Katti的“利用深度强化学习的蜂窝网络业务调度(Cellular Network Traffic Scheduling With Deep Reinforcement Learning)”(AAAI人工智能会议论文集,第1期,第32卷,2018年4月,https://ojs.aaai.org/index.php/AAAI/article/view/11339),在下文中被称为“Chinchali论文”。Chinchali论文的作者调查了高容量灵活时间(High

Volume

Flexible

Time,HVFT)业务。这是通常源自物联网(IoT)设备的业务。他们使用DRL算法来决定应在当前TTI中被调度的HVFT量。

技术实现思路

[0008]本文公开了用于基于深度强化学习(DRL)的分组调度的系统和方法。在一个实施例中,一种由网络节点执行的用于基于DRB的调度的方法,包括:使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行基于DRL的调度过程,该偏好向量定义用于与该多个期望网络性能行为中的该一个期望网络性能行为相关的该多个网络性能指标的权重。以此方式,以其中联合优化多个性能指标的方式来提供基于DRL的调度。
[0009]在一个实施例中,该方法进一步包括:分别获得用于多个期望网络性能行为的各网络性能指标集的多个偏好向量。
[0010]在一个实施例中,多个网络性能指标包括:(a)分组大小,(b)分组延时,(c)服务质量(QoS)要求,(d)小区状态,或者(e)(a)

(d)中的两项或更多项的组合。
[0011]在一个实施例中,进一步包括:分别从用于多个网络性能行为的各网络性能指标集的多个偏好向量中选择偏好向量。在一个实施例中,从多个偏好向量中选择偏好向量包括:基于一个或多个参数,从多个偏好向量中选择偏好向量。在一个实施例中,所选择的偏好向量随时间改变。在一个实施例中,一个或多个参数包括一天中的时间或者业务类型。
[0012]在一个实施例中,基于DRL的调度过程是深度Q学习网络(DQN)调度过程。
[0013]在一个实施例中,基于DRL的调度过程针对多个传输时间间隔(TTI)中的每个TTI执行分组的时域调度。
[0014]在一个实施例中,该方法进一步包括:在执行基于DRL的调度过程之前,确定用于期望网络性能行为的偏好向量。
[0015]在一个实施例中,该方法进一步包括:在执行基于DRL的调度过程之前,针对多个期望网络性能行为中的每个期望网络性能行为:针对用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练基于DRL的策略,每个复合奖励函数基于与该期望网络性能行为相关的多个网络性能指标和多个候选偏好向量中的相应的候选偏好向量;基于该训练的结果,从用于与该期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中选择用于与该期望网络性能行为相关的多个网络性能指标的偏好向量。
[0016]还公开了网络节点的对应实施例。在一个实施例中,一种用于基于DRB的调度的网络节点,适于:使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个
网络性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由网络节点(102)执行的用于基于深度强化学习DRL的调度的方法,所述方法包括:使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程,所述偏好向量定义用于与所述多个期望网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。2.根据权利要求1所述的方法,进一步包括:分别获得用于所述多个期望网络性能行为的各网络性能指标集的多个偏好向量。3.根据权利要求1或2所述的方法,其中,所述多个网络性能指标包括:(a)分组大小,(b)分组延时,(c)服务质量QoS要求,(d)小区状态,或者(e)(a)

(d)中的两项或更多项的组合。4.根据权利要求1至3中任一项所述的方法,进一步包括:分别从用于所述多个网络性能行为的各网络性能指标集的多个偏好向量中选择(502)所述偏好向量。5.根据权利要求4所述的方法,其中,从所述多个偏好向量中选择(502)所述偏好向量包括:基于一个或多个参数,从所述多个偏好向量中选择(502)所述偏好向量。6.根据权利要求5所述的方法,其中,所选择的偏好向量随时间改变。7.根据权利要求5或6所述的方法,其中,所述一个或多个参数包括一天中的时间或者业务类型。8.根据权利要求1至7中任一项所述的方法,其中,所述基于DRL的调度过程是深度Q学习网络DQN调度过程。9.根据权利要求1至8中任一项所述的方法,其中,所述基于DRL的调度过程针对多个传输时间间隔TTI中的每个TTI执行分组的时域调度。10.根据权利要求1至9中任一项所述的方法,进一步包括:在执行(206)所述基于DRL的调度过程之前,确定(204)用于所述期望网络性能行为的所述偏好向量。11.根据权利要求1至9中任一项所述的方法,进一步包括:在执行(206)所述基于DRL的调度过程之前,针对所述多个期望网络性能行为中的每个期望网络性能行为:针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204A)基于DRL的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204B)用于与所述期望网络性能行为相关的所述多个网络性能指标的所述偏好向量。12.一种用于基于深度强化学习DRL的调度的网络节点(102),所述网络节点(102)适于:使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程,所述偏好向量定义用于与所述多个期望
网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。13.根据权利要求12所述的网络节点(102),其中,所述网络节点(102)进一步适于执行根据权利要求2至11中的任何一项所述的方法。14.一种用于基于深度强化学习DRL的调度的网络节点(102),所述网络节点(102)包括处理电路,所述处理电路被配置为使所述网络节点(102):使用用于与多个期望网络性能行为中的一个期望网络性能行为相关的多个网络性能指标的偏好向量来执行(206)基于DRL的调度过程,所述偏好向量定义用于与所述多个期望网络性能行为中的所述一个期望网络性能行为相关的所述多个网络性能指标的权重。15.根据权利要求14所述的网络节点(102),其中,所述处理电路进一步被配置为使所述网络节点(102)执行根据权利要求2至11中的任何一项所述的方法。16.一种训练基于深度强化学习DRL的调度过程的计算机实现的方法,所述方法包括:针对多个期望网络性能行为中的每个期望网络性能行为:针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204A)基于DRL的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;以及基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204B)用于与所述期望网络性能行为相关的所述多个网络性能指标的偏好向量。17.一种用于训练基于深度强化学习DRL的调度过程的计算节点或网络节点,所述计算节点或网络节点适于:针对多个期望网络性能行为中的每个期望网络性能行为:针对用于与所述期望网络性能行为相关的多个网络性能指标的多个候选偏好向量中的每个候选偏好向量,基于相应的复合奖励函数,训练(204A)基于DRL的策略,每个复合奖励函数基于与所述期望网络性能行为相关的所述多个网络性能指标和所述多个候选偏好向量中的相应的候选偏好向量;以及基于所述训练的结果,从用于与所述期望网络性能行为相关的所述多个网络性能指标的所述多个候选偏好向量中选择(204B)用于与所述期望网络性能行为相关的所述多个网络...

【专利技术属性】
技术研发人员:V
申请(专利权)人:瑞典爱立信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1