【技术实现步骤摘要】
本说明书涉及一种强化学习。
技术介绍
1、在强化学习系统中,代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察结果而选择的动作来与环境交互。
2、一些强化学习系统根据神经网络的输出来选择要由代理响应于接收到给定观察结果而执行的动作。
3、神经网络是采用非线性单元的一个或多个层针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应的一组参数的当前值从接收到的输入来生成输出。
技术实现思路
1、一般而言,本说明书中描述的主题的一个创新方面能够以用于对神经网络进行训练的方法加以实施,所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作而执行的动作,其中所述方法包括以下步骤的动作:维持重放存储器(replay memory),所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的
...【技术保护点】
1.一种用于训练神经网络的方法,所述神经网络用于选择由强化学习代理执行的动作,所述强化学习代理通过执行使环境转变状态的动作与所述环境交互,所述方法包括:
2.根据权利要求1所述的方法,其中,基于所述经验数据块的所述相应预期学习进展量度来确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应概率包括:
3.根据权利要求2所述的方法,其中,经验数据块i的概率P(i)满足:
4.根据权利要求3所述的方法,其中,所述优先级是所述预期学习进展量度加上常数值。
5.根据权利要求3所述的方法,其中,所述优先级是具有预定正值作为分
...【技术特征摘要】
1.一种用于训练神经网络的方法,所述神经网络用于选择由强化学习代理执行的动作,所述强化学习代理通过执行使环境转变状态的动作与所述环境交互,所述方法包括:
2.根据权利要求1所述的方法,其中,基于所述经验数据块的所述相应预期学习进展量度来确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应概率包括:
3.根据权利要求2所述的方法,其中,经验数据块i的概率p(i)满足:
4.根据权利要求3所述的方法,其中,所述优先级是所述预期学习进展量度加上常数值。
5.根据权利要求3所述的方法,其中,所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数,所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。
6.根据权利要求3所述的方法,其中,所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。
7.根据权利要求1所述的方法,其中,每个经验数据块是经验元组,所述经验元组包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励。
8.根据权利要求7所述的方法,其中,在所选择的经验数据块上对所述神经网络进行训练进一步包括:
9.根据权利要求8所述的方法,其中,在调整所述参数的值中使用所述时间差学习误差包括:
10.根据权利要求8所述的方法,进一步包括:
11.根据权利要求7所述的方法,其中,针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所...
【专利技术属性】
技术研发人员:汤姆·绍尔,关小龙,大卫·西尔韦,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。