A method, system, and device for training a neural network of an action device, including a computer program coded on a computer storage medium, which is used to select actions that are performed by agents that interact with the environment. One of the methods of the method includes: obtaining a small batch of experience tuples; and updating the current value of the parameters of the neural network of the action device, including: for each of the experience tuples in the small batch: using the evaluator neural network to process the training observation values and the training actions described in the described experience tuples by using the evaluator neural network to determine the training action. The neural network output of the experienced tuple is described and the target neural network output of the experienced tuple is determined; the current value of the parameters of the evaluator neural network is updated by using the error between the target neural network output and the output of the neural network to update the current value of the parameters of the evaluator neural network; and the said evaluator neural network is used to update the movement. The current value of the parameters of the neural network.
【技术实现步骤摘要】
【国外来华专利技术】利用深度强化学习的连续控制
技术介绍
本说明书涉及选择待由强化学习代理执行的动作。强化学习代理通过接收表征环境的当前状态的观测值(observation)并且作为响应执行动作来与环境交互。一些强化学习代理使用神经网络来选择响应于接收到任何给定观测值而要执行的动作。神经网络是采用一个或者多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或者多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层的输入,即下一隐藏层或者输出层的输入。网络的每个层根据相应参数集合的当前值来从接收到的输入生成输出。
技术实现思路
本说明书描述了与强化学习有关的技术。大体上,一个创新方面可以体现为一种用于训练动作器神经网络的方法,该动作器神经网络被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与环境交互,其中,动作器神经网络根据动作器神经网络的参数的当前值将观测值映射至接下来的动作,并且其中,该方法包括:从重演(replay)存储器获得小批经验元组,每个经验元组包括表征环境的训练状态的训练观测值、来自代理响应于接收到训练观测值而执行的连续动作空间的训练动作、由代理接收的执行训练动作的训练奖励、和表征环境的下一训练状态的下一训练观测值;以及使用小批经验元组来更新动作器神经网络的参数的当前值,包括:对于小批中的每个经验元组:使用评价器神经网络来处理经验元组中的训练观测值和训练动作以根据评价器神经网络的参数的当前值来确定经验元组的神经网络输出;以及根据经验元组中的训练奖励和经验元组中的下一训练 ...
【技术保护点】
一种用于训练动作器神经网络的方法,所述动作器神经网络被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与所述环境交互,其中,所述动作器神经网络根据所述动作器神经网络的参数的当前值将观测值映射至接下来的动作,并且其中,所述方法包括:从重演存储器获得小批经验元组,每个经验元组包括表征所述环境的训练状态的训练观测值、来自所述代理响应于接收到所述训练观测值而执行的所述连续动作空间的训练动作、由所述代理接收的执行所述训练动作的训练奖励、和表征所述环境的下一训练状态的下一训练观测值;以及使用所述小批经验元组来更新所述动作器神经网络的参数的当前值,包括:对于所述小批中的每个经验元组:使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以根据所述评价器神经网络的参数的当前值来确定所述经验元组的神经网络输出,以及根据所述经验元组中的所述训练奖励和所述经验元组中的所述下一训练观测值来确定所述经验元组的目标神经网络输出,使用在所述目标神经网络输出与所述小批中的所述经验元组的所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前 ...
【技术特征摘要】
【国外来华专利技术】2015.07.24 US 62/196,8541.一种用于训练动作器神经网络的方法,所述动作器神经网络被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与所述环境交互,其中,所述动作器神经网络根据所述动作器神经网络的参数的当前值将观测值映射至接下来的动作,并且其中,所述方法包括:从重演存储器获得小批经验元组,每个经验元组包括表征所述环境的训练状态的训练观测值、来自所述代理响应于接收到所述训练观测值而执行的所述连续动作空间的训练动作、由所述代理接收的执行所述训练动作的训练奖励、和表征所述环境的下一训练状态的下一训练观测值;以及使用所述小批经验元组来更新所述动作器神经网络的参数的当前值,包括:对于所述小批中的每个经验元组:使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以根据所述评价器神经网络的参数的当前值来确定所述经验元组的神经网络输出,以及根据所述经验元组中的所述训练奖励和所述经验元组中的所述下一训练观测值来确定所述经验元组的目标神经网络输出,使用在所述目标神经网络输出与所述小批中的所述经验元组的所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前值;以及使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值。2.根据权利要求1所述的方法,其中,确定所述经验元组的目标神经网络输出包括:使用目标动作器神经网络处理所述下一训练观测值以根据所述目标动作器神经网络的参数的当前值来确定所述经验元组的预测的下一动作,其中,所述目标动作器神经网络与所述动作器神经网络完全相同,但是所述目标动作器神经网络的参数的当前值与所述动作器神经网络的参数的当前值不同;使用目标评价器神经网络处理所述经验元组的所述下一训练观测值和所述预测的下一动作以根据所述目标评价器神经网络的参数的当前值来生成预测的下一神经网络输出,其中,所述目标评价器神经网络与所述评价器神经网络完全相同,但是所述目标评价器神经网络的参数的当前值与所述评价器神经网络的参数的当前值不同;以及根据所述经验元组的所述训练奖励和所述预测的下一神经网络输出来确定所述经验元组的所述目标神经网络输出。3.根据权利要求2所述的方法,进一步包括:使用所述动作器神经网络的参数的所更新的值来更新所述目标动作器神经网络的参数的当前值;以及使用所述评价器神经网络的参数的所更新的值来更新所述目标评价器神经网络的参数的当前值。4.根据权利要求3所述的方法,其中,所述目标动作器神经网络和所述目标评价器神经网络的参数的当前值被约束为在所述动作器神经网络的所述训练期间缓慢地改变。5.根据权利要求1至4中的任一项所述的方法,其中,所述评价器神经网络、所述动作器神经网络、或者两者包括一个或者多个批标准化神经网络层。6.根据权利要求1至5...
【专利技术属性】
技术研发人员:蒂莫西·保罗·利利克拉普,乔纳森·詹姆斯·亨特,亚历山大·普里策尔,尼古拉斯·曼弗雷德·奥托·黑斯,汤姆·埃雷兹,尤瓦尔·塔萨,大卫·西尔韦,丹尼尔·彼得·维尔斯特拉,
申请(专利权)人:渊慧科技有限公司,
类型:发明
国别省市:英国,GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。