【技术实现步骤摘要】
利用深度强化学习的连续控制
[0001]分案说明
[0002]本申请属于申请日为2016年7月22日的中国专利技术专利申请201680043561.7的分案申请。
[0003]本公开涉及利用深度强化学习的连续控制。
技术介绍
[0004]本说明书涉及选择待由强化学习代理执行的动作。
[0005]强化学习代理通过接收表征环境的当前状态的观测值(observation)并且作为响应执行动作来与环境交互。一些强化学习代理使用神经网络来选择响应于接收到任何给定观测值而要执行的动作。
[0006]神经网络是采用一个或者多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或者多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层的输入,即下一隐藏层或者输出层的输入。网络的每个层根据相应参数集合的当前值来从接收到的输入生成输出。
技术实现思路
[0007]本说明书描述了与强化学习有关的技术。
[0008]大体上,一个创新方面可以体现为一种 ...
【技术保护点】
【技术特征摘要】
1.一种用于训练动作器神经网络的方法,所述动作器神经网络被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与所述环境交互,其中,所述动作器神经网络根据所述动作器神经网络的参数的当前值将观测值映射至接下来的动作,并且其中,所述方法包括:从重演存储器获得小批经验元组,每个经验元组包括表征所述环境的训练状态的训练观测值、来自所述代理响应于接收到所述训练观测值而执行的所述连续动作空间的训练动作、由所述代理接收的执行所述训练动作的训练奖励、和表征所述环境的下一训练状态的下一训练观测值;以及使用所述小批经验元组来更新所述动作器神经网络的参数的当前值,包括:对于所述小批中的每个经验元组:使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以根据所述评价器神经网络的参数的当前值来确定所述经验元组的神经网络输出,以及根据所述经验元组中的所述训练奖励和所述经验元组中的所述下一训练观测值来确定所述经验元组的目标神经网络输出,使用在所述目标神经网络输出与所述小批中的所述经验元组的所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前值;以及使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值。2.根据权利要求1所述的方法,其中,确定所述经验元组的目标神经网络输出包括:使用目标动作器神经网络处理所述下一训练观测值以根据所述目标动作器神经网络的参数的当前值来确定所述经验元组的预测的下一动作,其中,所述目标动作器神经网络与所述动作器神经网络完全相同,但是所述目标动作器神经网络的参数的当前值与所述动作器神经网络的参数的当前值不同;使用目标评价器神经网络处理所述经验元组的所述下一训练观测值和所述预测的下一动作以根据所述目标评价器神经网络的参数的当前值来生成预测的下一神经网络输出,其中,所述目标评价器神经网络与所述评价器神经网络完全相同,但是所述目标评价器神经网络的参数的当前值与所述评价器神经网络的参数的当前值不同;以及根据所述经验元组的所述训练奖励和所述预测的下一神经网络输出来确定所述经验元组的所述目标神经网络输出。3.根据权利要求2所述的方法,进一步包括:使用所述动作器神经网络的参数的所更新的值来更新所述目标动作器神经网络的参数的当前值;以及使用所述评价器神经网络的参数的所更新的值来更新所述目标评价器神经网络的参数的当前值。4.根据权利要求3所述的方法,其中,所述目标动作器神经网络和所述目标评价器神经网络的参数的当前值被约束为在所述动作器神经网络的所述训练期间缓慢地改变。5.根据权利要求1所述的方法,其中,所述评价器神经网络、所述动作器神经网络、或者两者包括一个或者多个批标准化神经网络层。6.根据权利要求1所述的方法,其中,由所述代理接收的所述观测值使用表征所述环境的状...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。