利用集中式推理和训练的强化学习制造技术

技术编号:32206409 阅读:13 留言:0更新日期:2022-02-09 17:11
用于利用集中式推理和训练来执行强化学习的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括:在多个时间步中的当前时间步处,接收行动者对于多个环境中的每个环境的相应观察;对于每个环境,作为行动者在当前时间步之前的先前时间步处执行相应动作的结果,获得对行动者的相应奖励;对于每个环境,通过策略模型来处理相应的观察和相应的奖励;向行动者提供针对多个环境中的每一个环境的相应策略输出;在存储库处对于每个环境维持对应于行动者的相应元组序列;确定所维持的序列满足阈值条件;以及作为响应,在所维持的序列上训练策略模型。所维持的序列上训练策略模型。所维持的序列上训练策略模型。

【技术实现步骤摘要】
【国外来华专利技术】利用集中式推理和训练的强化学习


[0001]本说明书涉及强化学习。

技术介绍

[0002]在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察而选择的动作来与环境交互。
[0003]一些强化学习系统响应于接收到根据神经网络的输出的给定观察来选择要由代理执行的动作。
[0004]神经网络是采用一层或多层非线性单元来预测所接收的输入的输出的机器学习模型。一些神经网络是深度神经网络,其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入来生成输出。

技术实现思路

[0005]本说明书描述了用于利用集中式策略模型执行强化学习的技术。
[0006]在一个方面,本说明书涉及一种方法,包括:接收由相应行动者对多个环境中的每个环境生成的相应观察;对每个环境,通过策略模型来处理包括对环境的相应观察的相应策略输入,以获得用于行动者的相应策略输出;对环境中的每一个环境,向相应行动者提供对环境的相应动作;对环境中的每一个环境,获得作为在环境中执行所提供的动作的结果而生成的对环境的相应行动者的相应奖励;对每个环境维持相应的元组序列;确定所维持的序列满足阈值条件;以及作为响应,在所维持的序列上训练策略模型。
[0007]实施方式可以包括以下特征中的一个或多个。策略模型具有多个模型参数值。相应的策略输出定义用于在环境中执行任务的控制策略。根据由相应策略输出定义的控制策略来确定相应动作。相应的元组序列中的至少一个元组包括相应的观察、动作和响应于行动者在环境中执行动作而获得的奖励。相应的元组序列被存储在优先级重放缓冲器中,并从优先级重放缓冲器中采样以训练策略模型。策略输入可以包括成批的相应策略模型输入,并且策略输出可以包括对成批的相应策略模型输入的每一批的成批的相应策略输出。行动者不包括策略模型。
[0008]本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。
[0009]通过集中策略模型,实现本说明书的主题的系统可以容易地缩放以处理任意数量的不同环境中的任意数量的行动者的观察。因为策略模型集中在学习器引擎处,所以学习器引擎不必在与学习器引擎互连的每个行动者之间同步模型参数值和用于策略模型的其他值。相反,在行动者和学习器引擎之间的网络通信量,即数据传输被减少到仅由行动者对学习器引擎的推理调用,以及由学习器引擎响应于推理调用而生成的动作。
[0010]因为推理和训练是集中的,所以可以集中计算上更昂贵和稀缺的计算资源来执行
和训练策略模型,而不是在实现计算效率较低的行动者引擎的硬件上执行策略模型。例如,学习器引擎可以在多个硬件加速器(例如,诸如张量处理单元(“TPU”)的神经网络加速器)上实现,其中,单独的处理线程专用于处理推理调用、训练和数据预取操作,例如,对训练数据进行批处理、对数据进行排队或将数据发送到优先级重放缓冲器和/或用于一个或多个硬件加速器的设备缓冲器。行动者不必在用于在环境中执行动作的操作与用于生成定义更适合于在硬件加速器上执行的未来动作的新策略输出的操作之间交替。
[0011]学习引擎可以自动地或响应于用户输入,调整被配置为执行推理操作的加速器与被配置为执行训练操作的加速器之间的比率。在一些实施方式中,对推理与训练分配的特定比率,提高了实现学习器引擎的系统的总吞吐量。
[0012]另外,学习器引擎被配置为接收并响应于来自行动者的推理调用,同时保持训练数据以供稍后更新策略模型的参数值。学习器引擎被配置为在维持的数据上训练策略模型,并且一旦策略模型被训练,学习器引擎被配置为通过经由新更新的策略模型处理所接收的观察并且提供从新更新的策略模型采样的动作来响应于后续的推理调用,从而消除了利用更新的策略模型单独来更新每个行动者的需要,并提高了系统效率和准确性。
[0013]在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书,主题的其他特征、方面和优点将变得显而易见。
附图说明
[0014]图1示出了示例性集中式推理强化学习系统。
[0015]图2详细图示了示例性集中式推理强化学习系统的示例性学习器引擎。
[0016]图3A图示了由系统利用的示例性离策略强化学习过程。
[0017]图3B图示了由系统利用的另一示例性离策略强化学习过程。
[0018]图4图示了用于集中式强化学习的示例性过程。
具体实施方式
[0019]本说明书总体上描述了一种以集中方式训练策略模型的强化学习系统。策略模型是机器学习模型,其被用来响应于表征环境的状态的观察来控制与环境交互的代理,例如,以在环境中执行特定任务。
[0020]在一些实施方式中,环境是真实世界环境,并且代理是与真实世界环境交互的机械代理。例如,代理可以是与环境交互的机器人,例如,以定位环境中的感兴趣的对象、将感兴趣的对象移动到环境中的指定位置、物理地操纵环境中的感兴趣的对象,和/或导航到环境中的指定目的地;或者代理可以是通过环境导航到环境中的指定目的地的自主或半自主陆地、空中或海上交通工具。
[0021]在这些实施方式中,观察可以包括例如图像、对象位置数据和传感器数据中的一个或多个以在代理与环境交互时捕获观察,例如来自图像、距离或位置传感器或来自致动器的传感器数据。
[0022]例如,在机器人的情况下,观察可以包括表征机器人的当前状态的数据,例如,以下中的一个或多个:关节位置、关节速度、关节力、整体方位、扭矩和/或加速度,例如重力补偿扭矩反馈,以及由机器人保持的物品的全局或相对姿势。
[0023]在机器人或其他机械代理或交通工具的情况下,观察可以类似地包括代理的一个或多个部位的位置、线性或角速度、力、扭矩和/或加速度以及全局或相对姿势中的一个或多个。观察可以在1维、2维或3维中定义,并且可以是绝对和/或相对观察。
[0024]观察还可以包括例如感测到的电子信号,诸如马达电流或温度信号;和/或例如来自相机或激光雷达(LIDAR)传感器的图像或视频数据,例如,来自代理的传感器的数据或来自与环境中的代理分开定位的传感器的数据。
[0025]在电子代理的情况下,观察可以包括来自监测工厂或服务设施的一部分的一个或多个传感器的数据,诸如电流、电压、功率、温度和表示仪器的电子和/或机械零件的功能的其他传感器和/或电子信号。
[0026]动作可以是控制机器人或者自主或半自主陆地或空中或海上交通工具的控制输入,例如,机器人的关节的扭矩或更高级控制命令,例如,交通工具的控制表面或其他控制元件的扭矩或更高级控制命令。
[0027]换句话说,动作可以包括例如机器人的一个或多个关节或另一机械代理的部位的位置、速度或力/扭矩/加速度数据。动作可以附加地或可替代地包括电子控制数据,诸如电机控制数据,或更一般地,用于控制环境内的一个或多个电子设备的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:对于多个环境中的每个环境,接收由相应行动者生成的相应观察;对于每个环境,通过具有多个模型参数值的策略模型来处理包括对于所述环境的相应观察的相应策略输入,以获得针对所述行动者的定义用于在所述环境中执行任务的控制策略的相应策略输出;向所述环境中的每个环境的相应行动者提供根据由所述环境的所述相应策略输出定义的所述控制策略确定的相应动作;对于所述环境中的每个环境,获得作为所提供的动作在所述环境中被执行的结果而生成的对于所述环境的所述相应行动者的相应奖励;对于每个环境,维持相应元组序列,至少一个元组包括相应观察、动作和响应于所述行动者在所述环境中执行所述动作而获得的奖励;确定所维持的序列满足阈值条件;以及作为响应,在所维持的序列上训练所述策略模型。2.根据权利要求1所述的方法,进一步包括:使所述行动者在环境中执行由提供给所述行动者的所述相应策略输出定义的相应动作。3.根据权利要求2所述的方法,其中,所述环境是真实世界环境,并且其中,使所述行动者在所述环境中执行由提供给所述行动者的所述相应策略输出定义的所述相应动作包括:使所述行动者向所述真实世界环境中的真实世界代理发送与所述相应动作相对应的一个或多个输入,其中,所述真实世界代理被配置为从所述行动者接收所述一个或多个输入并且在所述真实世界环境中执行所述相应动作。4.根据权利要求2所述的方法,其中,所述环境是模拟环境,并且其中,使所述行动者在所述环境中执行由提供给所述行动者的所述相应策略输出定义的相应动作包括:使所述行动者在所述模拟环境中执行所述相应动作。5.根据前述权利要求中的任一项所述的方法,其中,对于每个环境,获得作为所述行动者在当前时间步之前的先前时间步处执行相应动作的结果的所述行动者的相应奖励:对于每个环境,根据对于所述环境接收的所述相应观察来生成所述相应奖励。6.根据前述权利要求中的任一项所述的方法,其中,维持每个环境的相应序列包括:对于所述多个环境中的环境生成元组,所述元组包括:(i)由行动者接收的对于所述环境的相应观察,(ii)提供给所述行动者的对于所述环境的相应动作,以及(iii)作为所述行动者在所述环境中执行所述相应动作的结果而生成的针对所述环境的对于相应行动...

【专利技术属性】
技术研发人员:拉塞
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1