确定用于管理环境的目标策略制造技术

技术编号：40435763 阅读：6 留言：0更新日期：2024-02-22 23:00

公开了一种确定用于管理可操作以执行任务的环境的目标策略的计算机实现的方法(100)。该方法包括：获得训练数据集，该训练数据集包括在根据参考策略的管理期间环境的任务执行记录(110)；以及在多个时间步长处重复以下步骤，直至满足停止条件为止：从训练数据集选择任务执行记录(130)，使用所选择的记录来更新线性函数的初始估计，该线性函数的初始估计将所观察的环境上下文和所选择的动作映射到预测奖励值(140)，以及检查是否已经满足停止条件(150)。该方法还包括：输出作为目标策略的函数，该函数可操作以选择用于在环境中执行的动作，该动作针对给定上下文，通过在满足停止条件时的线性函数的估计被映射到最大预测奖励值(170)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及一种确定用于管理可操作以执行任务的环境的目标策略的方法，并且涉及一种使用目标策略来管理可操作以执行任务的环境的方法。该方法分别由策略节点和管理节点来执行。本公开还涉及策略节点、管理节点，并且涉及计算机程序产品，该计算机程序产品被配置为当在计算机上运行时执行确定用于管理可操作以执行任务的环境的目标策略的方法、和/或使用目标策略来管理可操作以执行任务的环境的方法。

技术介绍

1、上下文bandit(cb)设置是指其中代理通过选择要在环境上执行的动作来与环境交互的决策制定框架。代理通过以下方式来学习用于动作选择的最佳策略：与环境交互，并在环境中观察到给定上下文时收集奖励信号作为执行动作的结果。上下文包括关于环境状态的信息，代理使用该信息根据其学习的策略来选择动作。

2、在线性上下文bandit(lcb)问题中，在时间t≥1时，代理观察到上下文其是根据上下文空间(即，)上的未知概率分布而独立同分布(i.i.d.)地绘制的。代理具有离散动作集以及用于从上下文和所选择的动作生成特征向量的己知映射：

3、

4、代理使用策略从中选择动作at，并接收奖励样本：

5、

6、其中，是噪声样本，并且θ∈rd是未知系数向量。策略被定义为从上下文到要选择的动作的映射。

7、在与环境交互时，代理收集大量数据。该离线数据对于数据驱动技术中的学习策略具有相当大的优点。通常，通过与环境直接交互来学习策略会带来短期奖励减少的风险。在一些情况下，这可能产生很大的问题，因为在代理尝试不同动

8、对于离线学习，通过日志记录策略来收集数据，该日志记录策略与要使用所收集的数据进行训练的目标策略不同。因此，所收集的数据被称为离线策略数据。以离线方式从离线策略数据学习新的目标策略可以避免在线环境中的探索性动作，该探索性动作是在线学习中的不安全行为的主要原因。

9、正式地，假设使用日志记录策略π0已经收集的基线数据集目的是建议目标或学习策略π∈π，其中，π是来自离线策略数据集的离线方式的策略空间，目的是最大化学习策略π的值，其被定义为：

10、

11、给定相同的所观察的环境上下文，由于离线策略数据通过日志记录策略π0来收集，因此它们不能直接用于估计学习策略π的值，因为学习策略将不总是选择与日志记录策略相同的动作。可以通过使用基于v的值估计器(例如，逆倾向评分(ips)或直接方法(dm)估计器)来解决该问题。

12、最佳策略识别(bpi)是一种旨在确定最佳策略的技术：

13、其中所有

14、离线策略bpi过程由以下两个元素表征：

15、1)停止规则：该规则控制算法执行的结束并定义停止时间τ，使得pθ[τ＜∞]＝1。

16、2)推荐规则：该规则在τ轮次返回所推荐的最佳臂或动作其中所有

17、离线策略估计存在可靠性问题。如上面所讨论的，离线策略设置中的先前工作的重点是学习基于离线策略奖励估计器来最大化策略值的策略。这种估计器通常不可靠，特别是当数据被偏置或包含大量噪声时。由于奖励结构的假设的普遍性，这些估计量对所学习的策略的质量也提供了相对较弱的保证。

18、与离线策略估计相关联的另一项挑战是确定正确的停止时间。用于离线策略估计的现有计解决方案通常从给定数据集中学习策略。然而，在实时操作中，使用日志记录策略来不断实时生成并累积数据。在该场景下，重要的任务是确定返回最佳估计策略的停止时间，即，何时停止使用所部署的日志记录策略，并切换到经训练的最佳估计策略。如果切换太早，并且所积累的数据不足以训练最佳策略，则由于用于策略的训练不足而导致的不良决策，环境性能将下降。如果切换太晚，则浪费利用经训练的策略来优化环境性能的机会，因为环境在不必要的延长时间内维持在日志记录策略下的管理，并因此导致次优的性能。用于离线策略学习的现有方法并不提供用于确定停止时间的可靠方法。

技术实现思路

1、本公开的目的在于提供至少部分地解决上面讨论的一项或多项挑战的方法、节点和计算机程序产品。本公开的另一目的在于提供以下方法、节点和计算机程序产品：其协作以按照对于所管理的环境安全的方式确定通过某种测量为最佳的目标策略，从而导致根据目标策略管理的环境的任务的改进执行。

2、根据本公开的第一方面，提供了一种确定用于管理可操作以执行任务的环境的目标策略的计算机实现的方法。通过策略节点执行的该方法包括：获得训练数据集，该训练数据集包括根据参考策略的管理期间的环境的任务执行记录，其中，每条任务执行记录包括所观察的该环境的上下文、基于所观察的上下文通过参考策略选择用于在该环境中执行的动作、以及指示所选择的动作对该环境的任务执行的所观察的影响的奖励值。该方法还包括：在多个时间步长处重复以下步骤，直到满足停止条件为止：(i)从训练数据集中选择任务执行记录，(ii)使用所观察的上下文、所选择的动作和来自所选择的记录的奖励来更新线性函数的初始估计，该线性函数的初始估计将所观察的上下文和所选择的动作映射到预测奖励值，以及(iii)检查是否己满足停止条件。该方法还包括：输出作为目标策略的函数，该函数可操作以选择用于在环境中执行的动作，该动作针对给定上下文，通过在满足停止条件时的线性函数的估计被映射到最大预测奖励值。该停止条件包括满足线性函数的误差条件的概率下降到低于最大可接受概率阈值，并且该误差条件包括使用线性函数的当前估计而选择的动作与最佳动作相差超过误差阈值。

3、根据本公开的另一方面，提供了一种使用目标策略来管理可操作以执行任务的环境的计算机实现的方法。由管理节点执行的该方法包括：从策略节点获得目标策略，其中，该目标策略已经使用根据本公开的示例的方法来确定。该方法还包括：从环境节点接收所观察的环境上下文，使用目标策略来基于所接收的所观察的上下文并且从用于该环境的可能动作集中选择用于在该环境中执行的动作，并且使所选择的动作在该环境中执行。该目标策略选择被预测以使得在该环境中观察到最高奖励值的动作，该奖励值包括所选择的动作对该环境的任务执行的所观察的影响。

4、根据本公开的另一方面，提供了一种包括计算机可读介质的计算机程序产品，该计算机可读介质具有在其中实现的计算机可读代码，该计算机可读代码被配置为使得：在由合适的计算机或处理器上执行时，使计算机或处理器执行根据本公开的任何一个或多个方面或示例的方法。

5、根据本公开的另一方面，提供了一种确定用于管理可操作以执行任务的环境的目标策略的策略节点。该策略节点包括：被配置为使策略节点执行以下操作的处理电路：获得训练数据集，该训练数据集包括根据参考策略的管理期间的环境的任务执行记录，其中，每条任务执行记录包括所观察的该环境的上下文、基于所观察的上下文通过参考策略选择用于在该环境中执行的动作、以及指示所选择的动作对该环境本文档来自技高网...

【技术保护点】

1.一种确定用于管理可操作以执行任务的环境的目标策略的计算机实现的方法(100)，所述方法由策略节点执行，所述方法包括：

2.根据权利要求1所述的方法，其中，所获得的任务执行记录包括各条记录的顺序时间序列(210b)，并且其中，从所述训练数据集中选择任务执行记录包括选择所述时间序列中的下一条记录(230a)。

3.根据权利要求1或2所述的方法，其中，使用所观察的上下文、所选择的动作和来自所选择的记录的奖励来更新对将所观察的上下文和所选择的动作映射到预测奖励值的线性函数的初始估计包括：

4.根据权利要求1至3中任一项所述的方法，其中，将所观察的上下文和所选择的动作映射到预测奖励值的线性函数包括：作为所观察的上下文和所选择的动作的函数的自变量向量、以及所述自变量向量的系数向量；以及其中，使用所观察的上下文、所选择的动作和来自所选择的记录的奖励来更新所述线性函数的初始估计包括：

5.根据权利要求3或4所述的方法，其中，计算所述系数向量的估计值包括：

6.根据前述权利要求中任一项所述的方法，其中，检查是否已经满足所述停止条件包括：

7.根据权利要求6所述的方法，其中，计算所述确定性程度包括：使用所述线性函数的当前更新估计来计算广义对数似然比(251a)。

8.根据权利要求6或7所述的方法，其中，当所计算的确定性程度超过所述探索函数的计算值时，满足所述停止条件(254)。

9.根据权利要求6至8中任一项所述的方法，其中，当发生以下情况时满足所述停止条件(254)：

10.根据权利要求6至9中任一项所述的方法，其中，满足所述停止条件的停止时间包括(256)以下的下确界：

11.根据前述权利要求中任一项所述的方法，还包括：

12.根据前述权利要求中任一项所述的方法，还包括：

13.根据权利要求12所述的方法，其中，对照所述环境的性能函数来验证所述线性函数包括：

14.根据权利要求1至13中任一项所述的方法，其中，所述环境(310)包括通信网络的小区(310a)、通信网络的小区扇区(310b)、通信网络的核心网络的至少一部分(310c)、或通信网络的切片(310d)中的至少一种，并且其中，所述环境可操作以执行的任务包括提供通信网络服务。

15.根据权利要求1至14中任一项所述的方法，其中，所述训练数据集中的所观察的环境上下文(320)包括以下中的至少一项：

16.根据权利要求1至15中任一项所述的方法，其中，指示所选择的动作对所述环境的任务执行的所观察的影响的奖励值(330)包括所述通信网络的至少一个性能参数的函数(330a)。

17.根据权利要求1至16中任一项所述的方法，其中，用于在所述环境中执行的动作(340)包括以下中至少一项：

18.根据权利要求1至17中任一项所述的方法，其中，所述环境包括通信网络的小区的扇区(31 0b)，并且其中，所述环境可操作以执行的任务包括提供无线电接入网络服务；

19.一种计算机实现的方法(400)，用于使用目标策略来管理可操作以执行任务的环境，所述方法由管理节点执行，所述方法包括：

20.根据权利要求19所述的方法，其中，使用所述目标策略来基于所接收的所观察的上下文并且从用于所述环境的可能动作集中选择用于在所述环境中执行的动作包括(430b)：

21.根据权利要求19或20所述的方法，其中，所述环境(310)包括通信网络的小区(310a)、通信网络的小区扇区(310b)、通信网络的核心网络的至少一部分(310c)、或通信网络的切片(310d)中的至少一种，并且其中，所述环境可操作以执行的任务包括提供通信网络服务。

22.根据权利要求19至21中任一项所述的方法，其中，从所述通信网络节点接收的所观察的环境上下文包括以下中的至少一项：

23.根据权利要求19至22中任一项所述的方法，其中，所述奖励值(330)包括所述通信网络的至少一个性能参数的函数(330a)。

24.根据权利要求19至23中任一项所述的方法，其中，用于在所述环境中执行的动作包括以下中至少一项：

25.根据权利要求19至24中任一项所述的方法，其中，所述环境包括通信网络的小区的扇区，并且其中，所述环境可操作以执行的任务包括提供无线电接入网络服务；

26.一种包括计算机可读介质的计算机程序产品，所述计算机可读介质具有被包括其中的计算机可读代码，所述计算机可读代码被配置为使得：在由合适的计算机或处理器执行时，使所述计算机或处理器执行根据权利要求...

【技术特征摘要】
【国外来华专利技术】