使用分布式优先化回放的强化学习制造技术

技术编号:24597415 阅读:75 留言:0更新日期:2020-06-21 03:47
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于训练动作选择神经网络,该动作选择神经网络用于选择要由与环境交互的智能体执行的动作。该系统之一包括(i)多个行动者计算单元,其中每个行动者计算单元被配置为维护动作选择神经网络的相应副本并执行多个行动者操作,以及(ii)一个多个学习者计算单元,其中一个或多个学习者计算单元中的每一个被配置为执行多个学习者操作。

Reinforcement learning with distributed priority playback

【技术实现步骤摘要】
【国外来华专利技术】使用分布式优先化回放的强化学习相关申请的交叉引用本申请是2017年10月27日提交的美国临时专利申请第62/578,384号的非临时申请并要求其优先权,通过引用将该申请的全部内容合并于此。
技术介绍
本说明书涉及强化学习。在强化学习系统中,智能体(agent)通过执行由强化学习系统响应于接收表征环境的当前状态的观察选择的动作来与环境交互。一些强化学习系统根据神经网络的输出选择响应于接收给定观察要由智能体执行的动作。神经网络是采用非线性单元的一个或多个层来为接收的输入预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应一组参数的当前值从接收的输入生成输出。
技术实现思路
本说明书总体描述强化学习系统,其训练神经网络,该神经网络用于选择要由与环境交互的强化学习智能体执行的动作。本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。本说明书中描述的主题涉及用于大规本文档来自技高网...

【技术保护点】
1.一种用于训练动作选择神经网络的系统,所述动作选择神经网络具有多个网络参数并且用于选择要由与环境交互的智能体执行的动作,所述系统包括:/n多个行动者计算单元,每个行动者计算单元被配置为维护动作选择神经网络的相应副本并执行行动者操作,所述行动者操作包括:/n接收表征环境的实例的当前状态的观察,/n使用动作选择神经网络副本并根据网络参数的当前值,选择要由智能体执行的动作,/n获得表征在智能体执行所选择的动作之后的环境实例的转变数据,/n从观察、所选择的动作和转变数据生成经验元组,/n确定经验元组的优先级;以及/n将经验元组与优先级关联地存储在每个行动者计算单元能够访问的共享存储器中;以及/n一个...

【技术特征摘要】
【国外来华专利技术】20171027 US 62/578,3841.一种用于训练动作选择神经网络的系统,所述动作选择神经网络具有多个网络参数并且用于选择要由与环境交互的智能体执行的动作,所述系统包括:
多个行动者计算单元,每个行动者计算单元被配置为维护动作选择神经网络的相应副本并执行行动者操作,所述行动者操作包括:
接收表征环境的实例的当前状态的观察,
使用动作选择神经网络副本并根据网络参数的当前值,选择要由智能体执行的动作,
获得表征在智能体执行所选择的动作之后的环境实例的转变数据,
从观察、所选择的动作和转变数据生成经验元组,
确定经验元组的优先级;以及
将经验元组与优先级关联地存储在每个行动者计算单元能够访问的共享存储器中;以及
一个或多个学习者计算单元,其中,所述一个或多个学习者计算单元中的每一个被配置为执行学习者操作,所述学习者操作包括:
从共享存储器采样一批经验元组,其中,采样受到共享存储器中的经验元组的优先级的偏倚;以及
使用采样的经验元组,利用强化学习技术来确定网络参数的更新。


2.根据权利要求1所述的系统,其中,确定经验元组的优先级包括:
根据强化学习技术确定所选择的动作的学习误差;以及
从学习误差确定优先级。


3.根据权利要求2所述的系统,其中,所述优先级是学习误差的绝对值。


4.根据权利要求1-3中的任一项所述的系统,其中,所述行动者计算单元中的两个或更多个使用不同的探索策略来选择动作。


5.根据权利要求1-4中的任一项所述的系统,其中,所述不同的探索策略是具有不同的ε值的ε...

【专利技术属性】
技术研发人员:D巴登G巴特马伦J全DG霍根
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1