使用优先化经验存储器训练神经网络制造技术

技术编号：19247329 阅读：15 留言：0更新日期：2018-10-24 09:04

用于对用于选择由与环境交互的强化学习代理执行的动作的神经网络进行训练的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面中，一种方法包括维持重放存储器，其中所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块。每个经验数据块与相应的预期学习进展量度相关联，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度。所述方法还包括通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块，并且在所选择的经验数据块上对所述神经网络进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用优先化经验存储器训练神经网络
本说明书涉及一种强化学习。
技术介绍
在强化学习系统中，代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察结果而选择的动作来与环境交互。一些强化学习系统根据神经网络的输出来选择要由代理响应于接收到给定观察结果而执行的动作。神经网络是采用非线性单元的一个或多个层针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即，下一个隐藏层或输出层)的输入。网络的每个层根据相应的一组参数的当前值从接收到的输入来生成输出。
技术实现思路
一般而言，本说明书中描述的主题的一个创新方面能够以用于对神经网络进行训练的方法加以实施，所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作而执行的动作，其中所述方法包括以下步骤的动作：维持重放存储器(replaymemory)，所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块，其中，所述经验数据块各自具有相应的预期学习进展量度(measure)，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度；通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块；以及在所选择的经验数据块上对所述神经网络进行训练。这个方面的其它实施例包括相对应的计算机系统、装置以及在一个或多个计算机存储设备上记录的计算机程序，它们各自被配置成执行所述方法的动作。一个或...

【技术保护点】
1.一种用于对神经网络进行训练的方法，所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作来执行的动作，所述方法包括：维持重放存储器，所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块，多个所述经验数据块各自具有相应的预期学习进展量度，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度；通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块；以及在所选择的经验数据块上对所述神经网络进行训练。

【技术特征摘要】
【国外来华专利技术】2015.11.12 US 62/254,6101.一种用于对神经网络进行训练的方法，所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作来执行的动作，所述方法包括：维持重放存储器，所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块，多个所述经验数据块各自具有相应的预期学习进展量度，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度；通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块；以及在所选择的经验数据块上对所述神经网络进行训练。2.根据权利要求1所述的方法，其中，选择所述经验数据块包括：确定用于每个经验数据块的相应的概率，使得与具有相对较低的预期学习进展量度的经验数据块相比，具有较高的预期学习进展量度的经验数据块具有较高的概率；以及根据所确定的概率来对经验数据块进行采样。3.根据权利要求2所述的方法，其中，经验数据块i的概率P(i)满足：其中，α是预定常数，k的范围跨越所述重放存储器中的所述经验数据块，并且pi是从针对所述经验数据块i的所述预期学习进展量度取得的用于所述经验数据块i的优先级。4.根据权利要求3所述的方法，其中，所述优先级是所述预期学习量度加上常数值。5.根据权利要求3所述的方法，其中，所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数，所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。6.根据权利要求3至5中的任一项所述的方法，其中，所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。7.根据权利要求1至5中的任一项所述的方法，其中，每个经验数据块是经验元组，所述经验元组包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环...

【专利技术属性】
技术研发人员：汤姆·绍尔，关小龙，大卫·西尔韦，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：英国,GB

全部详细技术资料下载我是这个专利的主人