利用集中式推理和训练的强化学习制造技术

技术编号：32206409 阅读：13 留言：0更新日期：2022-02-09 17:11

用于利用集中式推理和训练来执行强化学习的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。方法之一包括：在多个时间步中的当前时间步处，接收行动者对于多个环境中的每个环境的相应观察；对于每个环境，作为行动者在当前时间步之前的先前时间步处执行相应动作的结果，获得对行动者的相应奖励；对于每个环境，通过策略模型来处理相应的观察和相应的奖励；向行动者提供针对多个环境中的每一个环境的相应策略输出；在存储库处对于每个环境维持对应于行动者的相应元组序列；确定所维持的序列满足阈值条件；以及作为响应，在所维持的序列上训练策略模型。所维持的序列上训练策略模型。所维持的序列上训练策略模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】利用集中式推理和训练的强化学习

[0001]本说明书涉及强化学习。

技术介绍

[0002]在强化学习系统中，代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察而选择的动作来与环境交互。
[0003]一些强化学习系统响应于接收到根据神经网络的输出的给定观察来选择要由代理执行的动作。
[0004]神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。一些神经网络是深度神经网络，其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入来生成输出。

技术实现思路

[0005]本说明书描述了用于利用集中式策略模型执行强化学习的技术。
[0006]在一个方面，本说明书涉及一种方法，包括：接收由相应行动者对多个环境中的每个环境生成的相应观察；对每个环境，通过策略模型来处理包括对环境的相应观察的相应策略输入，以获得用于行动者的相应策略输出；对环境中的每一个环境，向相应行动者提供对环境的相应动作；对环境中的每一个环境，获得作为在环境中执行所提供的动作的结果而生成的对环境的相应行动者的相应奖励；对每个环境维持相应的元组序列；确定所维持的序列满足阈值条件；以及作为响应，在所维持的序列上训练策略模型。
[0007]实施方式可以包括以下特征中的一个或多个。策略模型具有多个模型参数值。相应的策略输出定义用于在环境中执行任务的控制策略。根据由相应策略输出定义的控制策...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括：对于多个环境中的每个环境，接收由相应行动者生成的相应观察；对于每个环境，通过具有多个模型参数值的策略模型来处理包括对于所述环境的相应观察的相应策略输入，以获得针对所述行动者的定义用于在所述环境中执行任务的控制策略的相应策略输出；向所述环境中的每个环境的相应行动者提供根据由所述环境的所述相应策略输出定义的所述控制策略确定的相应动作；对于所述环境中的每个环境，获得作为所提供的动作在所述环境中被执行的结果而生成的对于所述环境的所述相应行动者的相应奖励；对于每个环境，维持相应元组序列，至少一个元组包括相应观察、动作和响应于所述行动者在所述环境中执行所述动作而获得的奖励；确定所维持的序列满足阈值条件；以及作为响应，在所维持的序列上训练所述策略模型。2.根据权利要求1所述的方法，进一步包括：使所述行动者在环境中执行由提供给所述行动者的所述相应策略输出定义的相应动作。3.根据权利要求2所述的方法，其中，所述环境是真实世界环境，并且其中，使所述行动者在所述环境中执行由提供给所述行动者的所述相应策略输出定义的所述相应动作包括：使所述行动者向所述真实世界环境中的真实世界代理发送与所述相应动作相对应的一个或多个输入，其中，所述真实世界代理被配置为从所述行动者接收所述一个或多个输入并且在所述真实世界环境中执行所述相应动作。4.根据权利要求2所述的方法，其中，所述环境是模拟环境，并且其中，使所述行动者在所述环境中执行由提供给所述行动者的所述相应策略输出定义的相应动作包括：使所述行动者在所述模拟环境中执行所述相应动作。5.根据前述权利要求中的任一项所述的方法，其中，对于每个环境，获得作为所述行动者在当前时间步之前的先前时间步处执行相应动作的结果的所述行动者的相应奖励：对于每个环境，根据对于所述环境接收的所述相应观察来生成所述相应奖励。6.根据前述权利要求中的任一项所述的方法，其中，维持每个环境的相应序列包括：对于所述多个环境中的环境生成元组，所述元组包括：(i)由行动者接收的对于所述环境的相应观察，(ii)提供给所述行动者的对于所述环境的相应动作，以及(iii)作为所述行动者在所述环境中执行所述相应动作的结果而生成的针对所述环境的对于相应行动...

【专利技术属性】
技术研发人员：拉塞，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人