样本高效的强化学习制造技术

技术编号:26800458 阅读:29 留言:0更新日期:2020-12-22 17:19
用于样本高效的强化学习的方法、系统和装置,包括在计算机存储介质上的编码的计算机程序。这些方法中的一种包括:维护Q网络的集合、转变模型的集合和奖励模型的集合;获得转变;使用转变模型的集合来生成M个轨迹;对于所述轨迹中的每个轨迹中的每个时间步:使用所述奖励模型的集合来针对所述时间步生成N个奖励,使用所述Q网络的集合来针对所述时间步生成L个Q值,并且根据所述奖励、Q值和训练奖励,针对所述轨迹并针对所述时间步确定L*N个候选目标Q值;对于所述时间步中的每个时间步,组合所述候选目标Q值;确定最终目标Q值;以及使用所述最终目标Q值来训练所述集合中的Q网络的至少一个。

【技术实现步骤摘要】
【国外来华专利技术】样本高效的强化学习
技术介绍
本申请涉及强化学习,尤其涉及用于与现实环境交互的代理的强化学习。在强化学习系统中,代理通过执行动作来与环境交互,所述动作是由所述强化学习系统响应于接收到用于表征所述环境当前状态的观察结果而选择的。一些强化学习系统根据神经网络的输出响应于接收到给定的观察结果来选择将由所述代理执行的动作。神经网络是机器学习模型,其采用一层或多层非线性单元来预测针对接收到的输入的输出。一些神经网络是深度神经网络,除了输出层外,其还包括一个或多个隐藏层。每个隐藏层的输出用作所述网络中下一层——即,下一个隐藏层或输出层——的输入。所述网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。
技术实现思路
本申请一般地描述一种用于训练Q神经网络的强化学习系统。在一些情况下,所述Q神经网络用于训练策略神经网络,该策略神经网络然后用于通过强化学习代理(例如机器人或其它机械代理)与物理真实世界环境交互来选择要执行的动作。在其它情况下,Q神经网络直接用于通过强化学习代理与环境交互来选择要执行的动作。在训练期间,所述系统维护Q本文档来自技高网...

【技术保护点】
1.一种计算机实施的方法,包括:/n维护Q网络的集合,每个Q网络是神经网络,每个Q网络被配置成:接收Q网络输入,所述Q网络输入包括(i)用于表征与代理交互的环境的状态的输入观察结果和(ii)用于从动作集中标识一个动作的数据,并且处理所述Q网络输入以针对所述输入观察结果-动作对生成Q值;/n维护转变模型的集合,每个转变模型被配置成:接收转变输入,所述转变输入包括(i)输入观察结果和(ii)由所述代理响应于所述输入观察结果而执行的动作,并且处理所述转变输入以生成所预测的下一个观察结果,所预测的下一个观察结果用于表征作为所述代理响应于所述观察结果而执行所述动作的结果而由所述环境所转变成的状态;/n维...

【技术特征摘要】
【国外来华专利技术】20180518 US 62/673,8381.一种计算机实施的方法,包括:
维护Q网络的集合,每个Q网络是神经网络,每个Q网络被配置成:接收Q网络输入,所述Q网络输入包括(i)用于表征与代理交互的环境的状态的输入观察结果和(ii)用于从动作集中标识一个动作的数据,并且处理所述Q网络输入以针对所述输入观察结果-动作对生成Q值;
维护转变模型的集合,每个转变模型被配置成:接收转变输入,所述转变输入包括(i)输入观察结果和(ii)由所述代理响应于所述输入观察结果而执行的动作,并且处理所述转变输入以生成所预测的下一个观察结果,所预测的下一个观察结果用于表征作为所述代理响应于所述观察结果而执行所述动作的结果而由所述环境所转变成的状态;
维护奖励模型的集合,每个奖励模型被配置成:接收奖励输入,所述奖励输入包括(i)输入观察结果、(ii)由所述代理响应于所述输入观察结果而执行的动作、和(iii)用于表征作为所述代理响应于所述观察结果而执行所述动作的结果而由所述环境所转变成的状态的下一个观察结果,并且处理所述奖励输入以生成由所述代理响应于执行所述动作而接收到的预测奖励;
获得转变,所述转变包括(i)初始训练观察结果、(ii)训练动作、(iii)训练奖励、和(iv)下一个训练观察结果;
使用所述转变模型的集合来生成在所述转变中从所述下一个训练观察结果开始的M个轨迹,所述M个轨迹中的每个轨迹在预定数目的时间步的每个时间步包括相应的观察结果;
对于所述M个轨迹中的每个轨迹并且对于所述时间步中的每个时间步:
使用所述奖励模型的集合来针对所述时间步生成N个奖励,
使用所述Q网络的集合来针对所述时间步生成L个Q值,并且
根据所述N个奖励、所述L个Q值和所述训练奖励,针对所述轨迹并针对所述时间步确定L*N个候选目标Q值;
对于所述时间步中的每个时间步,组合来自所述M个轨迹的针对所述时间步的所述M*L*N个候选目标Q值以针对所述时间步生成组合候选目标Q值;
针对所述时间步根据组合目标Q值确定最终目标Q值;以及
使用所述最终目标Q值来训练所述集合中的所述Q网络中的至少一个Q网络。


2.根据权利要求1所述的方法,其中,所述转变是转变的最小批次中的转变中的一个,其中,所述最小批次中的每个转变被指派给所述集合中的所述Q网络中的相应一个Q网络,并且其中,使用所述最终目标Q值来训练所述集合中的所述Q网络中的至少一个Q网络包括使用所述最终目标Q值来训练被指派了所述转变的所述Q网络。


3.根据权利要求1或2中的任一项所述的方法,进一步包括:
在所述转变上训练所述转变模型中的至少一个和所述奖励模型中的至少一个。


4.根据权利要求1至3中的任一项所述的方法,进一步包括:
使用所述Q网络的集合来训练策略神经网络。


5.根据权利要求4所述的方法,其中,使用所述转变模型的集合来...

【专利技术属性】
技术研发人员:达尼亚尔·哈夫纳雅各布·巴克曼宏拉克·李尤金·布雷夫多乔治·杰伊·塔克
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1