使用优先化经验存储器训练神经网络制造技术

技术编号:19247329 阅读:15 留言:0更新日期:2018-10-24 09:04
用于对用于选择由与环境交互的强化学习代理执行的动作的神经网络进行训练的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括维持重放存储器,其中所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块。每个经验数据块与相应的预期学习进展量度相关联,所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度。所述方法还包括通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块,并且在所选择的经验数据块上对所述神经网络进行训练。

【技术实现步骤摘要】
【国外来华专利技术】使用优先化经验存储器训练神经网络
本说明书涉及一种强化学习。
技术介绍
在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察结果而选择的动作来与环境交互。一些强化学习系统根据神经网络的输出来选择要由代理响应于接收到给定观察结果而执行的动作。神经网络是采用非线性单元的一个或多个层针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应的一组参数的当前值从接收到的输入来生成输出。
技术实现思路
一般而言,本说明书中描述的主题的一个创新方面能够以用于对神经网络进行训练的方法加以实施,所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作而执行的动作,其中所述方法包括以下步骤的动作:维持重放存储器(replaymemory),所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块,其中,所述经验数据块各自具有相应的预期学习进展量度(measure),所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度;通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块;以及在所选择的经验数据块上对所述神经网络进行训练。这个方面的其它实施例包括相对应的计算机系统、装置以及在一个或多个计算机存储设备上记录的计算机程序,它们各自被配置成执行所述方法的动作。一个或多个计算机的系统能够被配置为借助于在该系统上安装的软件、固件、硬件或其任何组合来执行特定操作或动作,所述特定操作或动作在操作中可以使系统执行动作。一个或多个计算机程序能够被配置为借助于包括指令来执行特定操作或动作,所述指令在由数据处理装置执行时使该装置执行动作。实施方式能够包括以下特征中的一个或多个。在一些实施方式中,选择经验数据块包括:(i)确定用于每个经验数据块的相应的概率,使得与具有相对较低的预期学习进展量度的经验数据块相比,具有较高的预期学习进展量度的经验数据块具有较高的概率;以及(ii)根据所确定的概率来对经验数据块进行采样。在一些实施方式中,经验数据块i的概率P(i)满足:其中,α是预定常数,k的范围跨越所述重放存储器中的所述经验数据块,并且pi是从针对所述经验数据块i的所述预期学习进展量度取得的用于所述经验数据块i的优先级。在一些实施方式中,所述优先级是所述预期学习量度加上常数值。在一些实施方式中,所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数,所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。在一些实施方式中,所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。在一些实施方式中,每个经验数据块是经验元组,所述经验元组包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励。在一些实施方式中,在所选择的经验数据块上对所述神经网络进行训练包括:针对所选择的经验元组确定时间差学习误差;以及在调整所述神经网络的参数的值中使用所述时间差学习误差。在一些实施方式中,在调整所述参数的值中使用所述时间差学习误差包括:使用针对所选择的经验元组的所述预期学习进展量度来确定用于所述时间差学习误差的权重;使用所述权重来调整所述时间差学习误差;以及使用调整后的时间差学习误差作为用于调整所述神经网络的参数的值的目标误差。在一些实施方式中,所述方法还包括在所述神经网络的训练期间使在计算所述权重时使用的指数退火。在一些实施方式中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值。在一些实施方式中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值的导数。在一些实施方式中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是通过使用所述经验元组来对所述神经网络进行训练的诱发权重变化的范数。在一些实施方式中,所述方法还包括使用所述预期学习进展量度来确定何时从所述重放存储器中删除经验数据块。本说明书中描述的主题能够被实现在特定实施例中以便实现以下优点中的一个或多个。能够以增加为了对神经网络进行训练而选择的数据的值的方式选择来自重放存储器的训练数据。这进而能够提高在选择要由代理执行的动作中使用的神经网络的训练的速度并且减少有效地对那些神经网络进行训练所需的训练数据的量。因此,能够减少对神经网络的训练所必需的计算资源的量。例如,能够减少对存储训练数据所需要的存储器的量,能够减少由训练过程使用的处理资源的量,或者兼而有之。对于比较难以训练的复杂神经网络或者为了对神经网络进行训练以选择要由执行复杂强化学习任务的代理执行的动作,增加神经网络的训练的速度可能是特别显著的。在下面的附图和描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将根据本说明书、附图和权利要求书变得显而易见。附图说明图1示出示例强化学习系统。图2是用于使用重放存储器来对神经网络进行训练的示例过程的流程图。图3是用于基于经验数据的确定的概率来对经验数据进行采样的示例过程的流程图。图4是用于在经验元组上对神经网络进行训练的示例过程的流程图。在各个附图中,相似的附图标记和名称指示相似的元件。具体实施方式本说明书一般地描述强化学习系统,所述强化学习系统选择要由与环境交互的强化学习代理执行的动作。为了让代理与环境交互,系统接收表征环境的当前状态的数据并且从要由代理响应于所接收到的数据而执行的预定的一组动作中选择动作。表征环境的状态的数据将在本说明书中被称为观察结果。在一些实施方式中,环境是模拟环境并且代理被实现为与该模拟环境交互的一个或多个计算机程序。例如,所模拟的环境可以是视频游戏并且代理可以是玩该视频游戏的模拟用户。作为另一示例,模拟环境可以是运动模拟环境,例如,驾驶模拟或飞行模拟,并且代理是通过运动模拟来导航的模拟交通工具。在这些实施方式中,动作可以是用于控制模拟用户或模拟交通工具的控制输入。在其它一些实施方式中,环境是真实世界环境并且代理是与该真实世界环境交互的机械代理。例如,代理可以是与环境交互以实现特定任务的机器人。作为另一示例,代理可以是通过环境来导航的自主或半自主交通工具。在这些实施方式中,动作可以是用于控制机器人或自主交通工具的控制输入。图1示出示例强化学习系统100。该强化学习系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例,其中实现了在下面所描述的系统、组件、和技术。强化学习系统100选择要由与环境104交互的强化学习代理102执行的动作。也就是说,强化学习系统100接收观察结果,其中每个观察结果表征环境104的相本文档来自技高网...

【技术保护点】
1.一种用于对神经网络进行训练的方法,所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作来执行的动作,所述方法包括:维持重放存储器,所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块,多个所述经验数据块各自具有相应的预期学习进展量度,所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度;通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块;以及在所选择的经验数据块上对所述神经网络进行训练。

【技术特征摘要】
【国外来华专利技术】2015.11.12 US 62/254,6101.一种用于对神经网络进行训练的方法,所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作来执行的动作,所述方法包括:维持重放存储器,所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块,多个所述经验数据块各自具有相应的预期学习进展量度,所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度;通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块;以及在所选择的经验数据块上对所述神经网络进行训练。2.根据权利要求1所述的方法,其中,选择所述经验数据块包括:确定用于每个经验数据块的相应的概率,使得与具有相对较低的预期学习进展量度的经验数据块相比,具有较高的预期学习进展量度的经验数据块具有较高的概率;以及根据所确定的概率来对经验数据块进行采样。3.根据权利要求2所述的方法,其中,经验数据块i的概率P(i)满足:其中,α是预定常数,k的范围跨越所述重放存储器中的所述经验数据块,并且pi是从针对所述经验数据块i的所述预期学习进展量度取得的用于所述经验数据块i的优先级。4.根据权利要求3所述的方法,其中,所述优先级是所述预期学习量度加上常数值。5.根据权利要求3所述的方法,其中,所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数,所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。6.根据权利要求3至5中的任一项所述的方法,其中,所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。7.根据权利要求1至5中的任一项所述的方法,其中,每个经验数据块是经验元组,所述经验元组包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环...

【专利技术属性】
技术研发人员:汤姆·绍尔关小龙大卫·西尔韦
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1