使用分布式优先化回放的强化学习制造技术

技术编号：24597415 阅读：59 留言：0更新日期：2020-06-21 03:47

方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于训练动作选择神经网络，该动作选择神经网络用于选择要由与环境交互的智能体执行的动作。该系统之一包括(i)多个行动者计算单元，其中每个行动者计算单元被配置为维护动作选择神经网络的相应副本并执行多个行动者操作，以及(ii)一个多个学习者计算单元，其中一个或多个学习者计算单元中的每一个被配置为执行多个学习者操作。

Reinforcement learning with distributed priority playback

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用分布式优先化回放的强化学习相关申请的交叉引用本申请是2017年10月27日提交的美国临时专利申请第62/578,384号的非临时申请并要求其优先权，通过引用将该申请的全部内容合并于此。
技术介绍
本说明书涉及强化学习。在强化学习系统中，智能体(agent)通过执行由强化学习系统响应于接收表征环境的当前状态的观察选择的动作来与环境交互。一些强化学习系统根据神经网络的输出选择响应于接收给定观察要由智能体执行的动作。神经网络是采用非线性单元的一个或多个层来为接收的输入预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应一组参数的当前值从接收的输入生成输出。
技术实现思路
本说明书总体描述强化学习系统，其训练神经网络，该神经网络用于选择要由与环境交互的强化学习智能体执行的动作。本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个。本说明书中描述的主题涉及用于大规模深度强化学习的训练系统和训练技术，其使智能体能够从比先前使用现有训练技术可获得的训练数据显著更多的训练数据更有效和更快地学习。该系统具有分布式架构，其使行动与学习脱钩：多个行动者计算单元(或行动者)通过根据共享的动作选择神经网络选择动作来与自己的环境的实例进行交互，并在共享的经验回放存储器中积累所得到的经验；并且一个或多个学习者计算单元(或学习者)回放优先化的经验的样本并更新...

【技术保护点】
1.一种用于训练动作选择神经网络的系统，所述动作选择神经网络具有多个网络参数并且用于选择要由与环境交互的智能体执行的动作，所述系统包括：/n多个行动者计算单元，每个行动者计算单元被配置为维护动作选择神经网络的相应副本并执行行动者操作，所述行动者操作包括：/n接收表征环境的实例的当前状态的观察，/n使用动作选择神经网络副本并根据网络参数的当前值，选择要由智能体执行的动作，/n获得表征在智能体执行所选择的动作之后的环境实例的转变数据，/n从观察、所选择的动作和转变数据生成经验元组，/n确定经验元组的优先级；以及/n将经验元组与优先级关联地存储在每个行动者计算单元能够访问的共享存储器中；以及/n一个或多个学习者计算单元，其中，所述一个或多个学习者计算单元中的每一个被配置为执行学习者操作，所述学习者操作包括：/n从共享存储器采样一批经验元组，其中，采样受到共享存储器中的经验元组的优先级的偏倚；以及/n使用采样的经验元组，利用强化学习技术来确定网络参数的更新。/n

【技术特征摘要】
【国外来华专利技术】20171027 US 62/578,3841.一种用于训练动作选择神经网络的系统，所述动作选择神经网络具有多个网络参数并且用于选择要由与环境交互的智能体执行的动作，所述系统包括：
多个行动者计算单元，每个行动者计算单元被配置为维护动作选择神经网络的相应副本并执行行动者操作，所述行动者操作包括：
接收表征环境的实例的当前状态的观察，
使用动作选择神经网络副本并根据网络参数的当前值，选择要由智能体执行的动作，
获得表征在智能体执行所选择的动作之后的环境实例的转变数据，
从观察、所选择的动作和转变数据生成经验元组，
确定经验元组的优先级；以及
将经验元组与优先级关联地存储在每个行动者计算单元能够访问的共享存储器中；以及
一个或多个学习者计算单元，其中，所述一个或多个学习者计算单元中的每一个被配置为执行学习者操作，所述学习者操作包括：
从共享存储器采样一批经验元组，其中，采样受到共享存储器中的经验元组的优先级的偏倚；以及
使用采样的经验元组，利用强化学习技术来确定网络参数的更新。

2.根据权利要求1所述的系统，其中，确定经验元组的优先级包括：
根据强化学习技术确定所选择的动作的学习误差；以及
从学习误差确定优先级。

3.根据权利要求2所述的系统，其中，所述优先级是学习误差的绝对值。

4.根据权利要求1-3中的任一项所述的系统，其中，所述行动者计算单元中的两个或更多个使用不同的探索策略来选择动作。

5.根据权利要求1-4中的任一项所述的系统，其中，所述不同的探索策略是具有不同的ε值的ε...

【专利技术属性】
技术研发人员：D巴登，G巴特马伦，J全，DG霍根，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：英国;GB

全部详细技术资料下载我是这个专利的主人