机器学习模型和设备制造技术

技术编号：38823622 阅读：11 留言：0更新日期：2023-09-15 20:02

提供了用于实现强化学习的方法和设备。一种在客户端节点中根据策略命令环境中的动作的方法包括识别环境的一个或多个临界状态，当前策略针对所述临界状态提供不可靠动作。方法进一步包括向服务器发起重新训练请求的传输，重新训练请求包括与一个或多个临界状态相关的信息。方法进一步包括从服务器接收新策略(其中新策略由服务器基于与一个或多个临界状态相关的信息使用强化学习来生成)，以及根据新策略来命令环境中的动作。新策略来命令环境中的动作。新策略来命令环境中的动作。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】机器学习模型和设备

[0001]本文中描述的实施例与用于实现机器学习模型，特别地用于实现使用强化学习(RL)开发的机器学习模型的方法和设备相关。

技术介绍

[0002]复杂系统(诸如电信网络、车辆交通管理系统等等)的管理是不断增加的挑战。为了应对这个挑战，可以实现使能有效性和自适应性的强化学习(RL)技术。
[0003]RL允许机器学习系统(MLS)通过尝试利用试错法使针对一系列动作的预期累积奖励最大化来学习。RL智能体(也就是，使用RL以便随着时间改进给定任务中的性能的系统)通常与它们用于建模/控制的系统(环境)密切关联，并通过执行改变环境状态的动作的经验来学习。
[0004]图1示意性地说明了典型的RL系统。在图1中示出的架构中，智能体从它正被用于建模/控制的环境接收数据，并将动作传送到所述环境。对于时间t，智能体接收关于环境的当前状态S
t
的信息。智能体然后处理信息S
t
，并生成要采取的动作A
t
。然后将这个动作传送回到环境并使其生效。动作的结果是环境状态随时间的改变，因此在时间t+1，环境状态是S
t+1
。动作还引起(数值的，通常标量的)奖励R
t+1
，所述奖励R
t+1
是引起环境状态S
t+1
的动作A
t
的效果的度量。然后将环境的改变的状态S
t+1
连同奖励R
t+1
从环境传送到智能体。图1示出了奖励R
t...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于实现强化学习RL的客户端节点的操作方法，其中，所述客户端节点根据策略命令环境中的动作，所述方法包括：识别所述环境的一个或多个临界状态，当前策略针对所述临界状态提供不可靠动作；向服务器发起重新训练请求的传输，所述重新训练请求包括与所述一个或多个临界状态相关的信息；从所述服务器接收新策略，其中所述新策略由所述服务器基于与所述一个或多个临界状态相关的所述信息使用RL来生成；以及根据所述新策略命令所述环境中的动作。2.如权利要求1所述的方法，其中，所述环境的临界状态是与用于生成所述当前策略的所述环境状态中的全部环境状态实质上不同的状态。3.如权利要求2所述的方法，其中，所述临界状态的所述识别基于所述环境的观察。4.如权利要求3所述的方法，其中，所述临界状态经由所述环境与用于生成所述当前策略的环境状态的比较来识别。5.如权利要求4所述的方法，其中，在所述比较中使用随机网络蒸馏RND技术。6.如权利要求3至5中任一项所述的方法，其中，所述临界状态的所述识别还基于由所述服务器提供的集中信息。7.如任何前述权利要求所述的方法，其中，所述客户端节点使用状态分类模型来识别所述环境的所述临界状态。8.如权利要求7所述的方法，其中，所述重新训练请求包括所述一个或多个临界状态的样本。9.如权利要求8所述的方法，其中，所述客户端节点在发起所述重新训练请求的传输之前加密所述样本。10.如权利要求1至6中任一项所述的方法，其中，所述客户端节点使用所识别的一个或多个临界状态来推断模拟参数，并且其中所推断的模拟参数被包括在所述重新训练请求中。11.如任何前述权利要求所述的方法，其中，所述当前策略由所述客户端节点从所述服务器接收，或者其中，所述当前策略在连接到所述服务器之前被加载到所述客户端节点上。12.如任何前述权利要求所述的方法，其中，所述环境是电信网络的至少一部分。13.如权利要求12所述的方法，其中，所述电信网络的基站包括所述客户端节点。14.如权利要求12和13中任一项所述的方法，其中，由所述客户端节点命令的所述动作包括以下中的至少一个：分组传输速率的修改；以及延迟分组。15.一种包括用于实现RL的所述客户端节点和所述服务器的系统的操作方法，所述方法包括权利要求1至14中任一项所述的步骤，并且进一步包括由所述服务器执行以下操作：从所述客户端节点接收所述重新训练请求；基于所述重新训练请求中的与所述一个或多个临界状态相关的所述信息，重新训练负责所述当前策略的机器学习系统MLS，以生成所述新策略；以及向所述客户端节点分配由所述MLS生成的所述新策略。16.如权利要求15所述的方法，其中，所述服务器维护状态分类模型，当所述MLS被重新训练时更新所述状态分类模型，并且分配所述更新的状态分类模型和所述新策略。
17.如权利要求15所述的方法，其中，所述重新训练请求中的与所述一个或多个临界状态相关的所述信息包括推断的模拟参数，并且其中，所述服务器使用所述推断的模拟参数重新训练所述MLS。18.如权利要求15至17中任一项所述的方法，其中，分配所述新策略的所述步骤在以下情况下被执行：利用预设周期性；当由所述客户端节点请求时；和/或基于所述服务器和客户端节点的当前状态。19.如权利要求15至18中任一项所述的方法，其中，所述系统包括多个客户端节点，并且其中分配所述新策略的所述步骤包括向所述多个客户端节点中的全部客户端节点分配所述策略。20.如权利要求19所述的方法，其中，所述新策略被同时分配到所述多个客户端节点中的全部客户端节点。21.如权利要求19和20中任一项所述的方法，其中，重新训练所述MLS的所述步骤在已从所述多个客户端节点接收到某个数量的重新训练请求时被执行，并且其中所述重新训练使用来自所述接收到的重新训练请求中的全部重新训练请求的与所述一个或多个临界状态相关的信息。22.如权利要求21所述的方法，其中，所述某个数量是1。23.一种用于实现强化学习RL的客户端节点，其中，所述客户端节点被配置成根据策略命令环境中的动作，所述客户端节点包括处理电路模块和存储器，所述存储器包含能够由所述处理电路模块执行的命令，由此所述客户端节点能够操作用来：识别所述环境的一个或多个临界状态，当前策略针对所述临界状态提供不可靠动作；向服务器发起重新训练请求的传输，所述重新训练请求包括与所述一个或多个临界状态相关的信息；从所述服务器接收新策略，其中所述新策略由所述服务器基于与所述一个或多个临界状态相关的所述信息使用RL来生成；以及根据所述新策略命令所述环境中的动作。24.如权利要求23所述的客户端节点，其中，所述环境的临界状态是与用于生成所述...

【专利技术属性】
技术研发人员：J，
申请(专利权)人：瑞典爱立信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人