用于预测性信道选择的方法技术

技术编号：41348139 阅读：4 留言：0更新日期：2024-05-20 10:02

提供了用于预测性信道选择的方法。本发明专利技术涉及一种用于训练在无线通信网络中形成信道切换代理的强化学习模型的方法，该方法包括：获得未来时间段内无线网络的一个或多个信道的预测服务质量指示符，其中第一通信链路当前在一个或多个信道中的至少第一信道上是活动的；将预测服务质量指示符作为输入提供给强化学习模型，所述模型被配置为提供与第一通信链路的信道选择相关的输出；如果输出指示为第一通信链路选择了不同于当前活动信道的新信道，则发起第一通信链路到一个或多个信道之中的第二信道的信道切换过程；获得指示至少第一通信链路的当前服务质量的测量结果；基于获得的测量结果确定强化学习模型的奖励；以及基于奖励调整强化学习模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种用于信道选择的方法和设备以及一种用于训练用于信道选择的机器学习模型的方法。

技术介绍

1、诸如无线局域网(wlan)之类的无线通信系统容易由于来自其他系统或信道之间的干扰而导致性能下降。干扰可能导致传输延迟、连接速度降低、不期望的断开以及其他问题。通常监测无线连接的参数，并且当检测到增加的干扰时，将通信链路从当前信道切换到另一个信道。各种触发可以用于这种信道切换，诸如增加的干扰或降低的服务质量。

2、然而，这些方法仅在下降已经存在后以反应性方式起作用。因此，合期望的是提供一种改进的方法，用于避免干扰相关的性能问题，并改进服务质量。

技术实现思路

1、公开了一种使用机器学习模型进行信道选择的方法和设备以及一种用于训练这种模型的方法，以及一种用于执行根据独立权利要求的方法步骤的处理系统和计算机程序产品。

2、特别地，提出了一种用于训练在无线通信网络中形成信道切换代理的强化学习模型的方法，其中获得未来时间段内无线网络的一个或多个信道的预测服务质量指示符，并且其中第一通信链路当前在所述一个或多个信道中的至少第一信道上是活动的。预测的服务质量(qos)指示符作为输入被提供给强化学习模型，所述模型被配置为提供与所述第一通信链路的信道选择相关的输出。如果模型的输出指示为所述第一通信链路选择不同于所述当前活动信道的新信道，则发起所述第一通信链路到所述一个或多个信道之中的第二信道的信道切换过程。此外，获得指示至少所述第一通信链路的当前服务质量的测量结果，并且

3、以这种方式，经训练的信道切换代理能够基于对无线网络中服务质量的预测主动发起信道切换，而不是仅仅对恶化做出反应，其中强化学习确保模型将最佳地利用预测。

4、在一些实施例中，可以提供与所述第一通信链路相关和/或与所述一个或多个信道之中的至少一个信道相关的附加信息，作为对所述强化学习模型的输入。这有效地减小了信道切换代理的动作空间，并且从而提供了更好的结果和更精确的训练策略。这种信息可以例如包括在所述第一通信链路上传送的数据的数据流量简档；在所述一个或多个信道之中的至少一个其他信道上传输的数据的数据流量简档：所述第一通信链路的所述一个或多个信道之中的受限和/或允许信道的指示；所述一个或多个信道的带宽限制；或者一个或多个这种参数的任何合期望的组合。例如，数据流量简档可以包括关于在链路上不传输数据或传输低优先级数据的时间帧的信息，并且然后可以对信道切换过程进行定时，使得它在这些静默时间帧期间被执行。在其他情况下，由于法规限制、技术问题、特定数据简档、信道上提供的其他服务，一些信道可能是不可用的或不合期望的，并且该模型然后可以在信道选择中将某些信道从可用信道中排除。

5、例如，可以确定强化奖励，使得通过所述测量结果获得的至少一个参数被最小化。替代地，可以确定奖励，使得在其期间通过所述测量结果获得的至少一个参数在预定义阈值之外的时间量被最小化。要用于奖励函数的参数可以取决于特定的应用和无线网络的特性；例如，可以考虑分组差错率、期望数据率、抖动率、分组延迟、和/或端到端延迟。

6、然后，已经使用上述方法和变型训练的模型可以用在无线通信网络中的信道切换方法中，其中再次获得未来时间段内无线网络的一个或多个信道的预测服务质量指示符，其中第一通信链路当前在所述一个或多个信道中的至少第一信道上是活动的。预测服务质量指示符作为输入被提供给经训练的强化学习模型，其中该模型被配置为提供与所述第一通信链路的信道选择相关的输出。如果所述输出指示为所述第一通信链路选择不同于所述当前活动信道的新信道，则发起所述第一通信链路到所述一个或多个信道之中的第二信道的信道切换过程。

7、可选地，可以检查用于重新训练所述模型的至少一个触发条件，并且如果满足所述触发条件，则可以使用如上详述的训练方法或其变型来重新训练经训练的模型。以此方式，该模型在正常操作期间不需要强化反馈回路，从而减少了数据开销和处理时间，但是可以在任何时间被重新训练以优化该模型。仅作为示例，对触发条件的检查可以例如连续地和/或每当接收到新的测量结果时执行。

8、用于重新训练该模型的触发条件可以例如包括以下各项中的一个或多个：所述一个或多个信道上的活动通信链路的数量的阈值；在所述一个或多个信道上使用的带宽的阈值；在经由所述一个或多个信道上的活动通信链路连接的设备处的应用的启动的指示；触发消息的接收；与所述一个或多个信道上的服务质量相关的一个或多个参数的阈值；在相同频带和/或相邻频带上通信的另一个无线系统的检测；所述一个或多个信道中的至少一个信道的可用性的改变。

9、在操作中和/或训练中两者获得的测量结果例如包括以下各项中的一个或多个：信道上的传输延时；信道上的吞吐率；信道上传输延迟变化的指示。任何种类的测量结果可以例如从至少一个设备接收，该至少一个设备经由所述一个或多个信道中的至少一个上的活动通信链路连接，所述测量结果提供当前服务质量的指示。替代地或除此之外，诸如接入点或无线网络的另一管理模块的中心站可以执行与服务质量相关的测量，并且可以以与测量结果相同的方式提供这些。

10、未来时间段内无线网络的一个或多个信道的预测服务质量指示符可以至少部分基于这种获得的测量结果。在其他情况下，可以为qos预测提供单独的测量。执行这种服务质量预测的实体可以与如上所述的信道切换代理和模型相组合或者包括有如上所述的信道切换代理和模型，或者也可以在单独的模块或甚至单独的设备中提供。

11、强化学习模型的输出(在训练和操作两者期间)可以例如包括所述第二信道的指示和/或信道切换过程的时序的指示。它还可以包括指示通信链路应该保持在当前信道上而不切换的简单输出。

12、上面概述的方法和变型可以在无线网络的中心站处执行，特别是在无线局域网的接入点处执行。

13、此外，提出了一种设备，其包括：无线通信接口，用于使用无线网络的一个或多个信道上的第一通信链路与至少一个端点进行通信；预测性服务质量实体，其被配置用于为所述一个或多个信道提供未来时间段内的预测服务质量指示符；以及包括强化学习模型的信道切换代理，所述模型被配置为至少基于所述预测服务质量指示符来提供与所述第一通信链路的信道选择相关的输出；其中所述信道切换代理被配置用于执行根据本专利技术实施例的方法。这种设备可以被包括在无线网络的任何节点处，但是可以特别地形成中心站，诸如无线局域网的接入点。

14、代替监测当前的服务质量并在链路质量已经下降时反应性地切换通信信道，该解决方案允许基于预测的服务质量以改进的决定主动地从一个通信信道切换到另一个。

15、这里所描述的方法可以实现为由一个或多个计算机或其他设备执行的计算机可执行指令，诸如程序模块。一般地，程序模块包括例程、程序、对象、组件、数据结构等，它们执行特定的任务或实现特定的抽象数据本文档来自技高网...

【技术保护点】

1.一种用于训练在无线通信网络中形成信道切换代理的强化学习模型(140，240，340)的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括：提供与所述第一通信链路相关和/或与所述一个或多个信道之中的至少一个信道相关的附加信息(360)作为到所述强化学习模型(140，240，340)的输入。

3.根据权利要求2所述的方法，其中所述附加信息包括以下各项中的一个或多个：在所述第一通信链路上传送的数据的数据流量简档；在所述一个或多个信道之中的至少一个其他信道上传输的数据的数据流量简档：用于所述第一通信链路的所述一个或多个信道之中的受限和/或允许信道的指示；所述一个或多个信道的带宽限制。

4.根据任一前述权利要求所述的方法，其中确定所述奖励，使得通过所述测量结果获得的至少一个参数被最小化。

5.根据任一前述权利要求所述的方法，其中确定所述奖励，使得在其期间通过所述测量结果获得的至少一个参数在预定义阈值之外的时间量被最小化。

6.一种用于无线通信网络中的信道切换的方法，所述方法包括：

7.根据权利要求6所述的方法，进一步包括

8.根据权利要求7所述的方法，其中所述触发条件包括以下各项中的一个或多个：所述一个或多个信道上的活动通信链路的数量的阈值；在所述一个或多个信道上使用的带宽的阈值；在经由所述一个或多个信道上的活动通信链路连接的设备处的应用的启动的指示；触发消息的接收；与所述一个或多个信道上的服务质量相关的一个或多个参数的阈值；在相同频带和/或相邻频带上通信的另一个无线系统的检测；所述一个或多个信道中的至少一个信道的可用性的改变。

9.根据任一前述权利要求所述的方法，其中所述获得的测量结果(210，420，422)包括以下各项中的一个或多个：信道上的传输延时；信道上的吞吐率；信道上传输延迟变化的指示。

10.根据任一前述权利要求所述的方法，进一步包括：

11.根据任一前述权利要求所述的方法，进一步包括：基于所述获得的测量结果，确定(130)未来时间段内无线网络的一个或多个信道的所述预测服务质量指示符(30)。

12.根据任一前述权利要求所述的方法，其中所述强化学习模型的所述输出包括所述第二信道的指示和/或信道切换过程的时序的指示。

13.根据任一前述权利要求所述的方法，其中所述方法在无线局域网的接入点(100，400)处执行。

14.一种数据处理系统，包括用于实行根据任一前述权利要求所述的方法的装置。

15.一种包括指令的计算机程序产品，当所述程序由处理设备执行时，所述指令使所述处理设备实行根据权利要求1至13中任一项所述的方法。

16.一种设备，包括

...

【技术特征摘要】

1.一种用于训练在无线通信网络中形成信道切换代理的强化学习模型(140，240，340)的方法，所述方法包括：

4.根据任一前述权利要求所述的方法，其中确定所述奖励，使得通过所述测量结果获得的至少一个参数被最小化。

5.根据任一前述权利要求所述的方法，其中确定所述奖励，使得在其期间通过所述测量结果获得的至少一个参数在预定义阈值之外的时间量被最小化。

6.一种用于无线通信网络中的信道切换的方法，所述方法包括：

7.根据权利要求6所述的方法，进一步包括

8.根据权利要求7所述的方法，其中所述触发条件包括以下各项中的一个或多个：所述一个或多个信道上的活动通信链路的数量的阈值；在所述一个或多个信道上使用的带宽的阈值；在...

【专利技术属性】
技术研发人员：H·N·楚万肯，MT·苏尔，M·斯塔尔科，
申请(专利权)人：罗伯特·博世有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人