使用优先化经验存储器训练神经网络制造技术

技术编号:41064175 阅读:19 留言:0更新日期:2024-04-24 11:17
本申请涉及使用优先化经验存储器训练神经网络。公开了用于对用于选择由与环境交互的强化学习代理执行的动作的神经网络进行训练的方法、系统和装置。在一个方面中,一种方法包括维持重放存储器,其中所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块。每个经验数据块与相应的预期学习进展量度相关联,所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度。所述方法还包括通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块,并且在所选择的经验数据块上对所述神经网络进行训练。

【技术实现步骤摘要】

本说明书涉及一种强化学习。


技术介绍

1、在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察结果而选择的动作来与环境交互。

2、一些强化学习系统根据神经网络的输出来选择要由代理响应于接收到给定观察结果而执行的动作。

3、神经网络是采用非线性单元的一个或多个层针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应的一组参数的当前值从接收到的输入来生成输出。


技术实现思路

1、一般而言,本说明书中描述的主题的一个创新方面能够以用于对神经网络进行训练的方法加以实施,所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作而执行的动作,其中所述方法包括以下步骤的动作:维持重放存储器(replay memory),所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块,其中,所本文档来自技高网...

【技术保护点】

1.一种用于训练神经网络的方法,所述神经网络用于选择由强化学习代理执行的动作,所述强化学习代理通过执行使环境转变状态的动作与所述环境交互,所述方法包括:

2.根据权利要求1所述的方法,其中,基于所述经验数据块的所述相应预期学习进展量度来确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应概率包括:

3.根据权利要求2所述的方法,其中,经验数据块i的概率P(i)满足:

4.根据权利要求3所述的方法,其中,所述优先级是所述预期学习进展量度加上常数值。

5.根据权利要求3所述的方法,其中,所述优先级是具有预定正值作为分子以及所述经验数据块...

【技术特征摘要】

1.一种用于训练神经网络的方法,所述神经网络用于选择由强化学习代理执行的动作,所述强化学习代理通过执行使环境转变状态的动作与所述环境交互,所述方法包括:

2.根据权利要求1所述的方法,其中,基于所述经验数据块的所述相应预期学习进展量度来确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应概率包括:

3.根据权利要求2所述的方法,其中,经验数据块i的概率p(i)满足:

4.根据权利要求3所述的方法,其中,所述优先级是所述预期学习进展量度加上常数值。

5.根据权利要求3所述的方法,其中,所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数,所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。

6.根据权利要求3所述的方法,其中,所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。

7.根据权利要求1所述的方法,其中,每个经验数据块是经验元组,所述经验元组包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励。

8.根据权利要求7所述的方法,其中,在所选择的经验数据块上对所述神经网络进行训练进一步包括:

9.根据权利要求8所述的方法,其中,在调整所述参数的值中使用所述时间差学习误差包括:

10.根据权利要求8所述的方法,进一步包括:

11.根据权利要求7所述的方法,其中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所...

【专利技术属性】
技术研发人员:汤姆·绍尔关小龙大卫·西尔韦
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1