利用深度强化学习的连续控制制造技术

技术编号：34174300 阅读：20 留言：0更新日期：2022-07-17 11:32

本公开涉及利用深度强化学习的连续控制。训练动作器神经网络的方法、系统、和装置，包括编码在计算机存储介质上的计算机程序，所述动作器神经网络用于选择待由与环境交互的代理执行的动作。所述方法中的一个方法包括：获得小批经验元组；以及更新所述动作器神经网络的参数的当前值，包括：对于所述小批中的每个经验元组：使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以确定所述经验元组的神经网络输出，并且确定所述经验元组的目标神经网络输出；使用在所述目标神经网络输出与所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前值；以及使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值。经网络的参数的当前值。经网络的参数的当前值。

全部详细技术资料下载

【技术实现步骤摘要】
利用深度强化学习的连续控制
[0001]分案说明
[0002]本申请属于申请日为2016年7月22日的中国专利技术专利申请201680043561.7的分案申请。

[0003]本公开涉及利用深度强化学习的连续控制。

技术介绍

[0004]本说明书涉及选择待由强化学习代理执行的动作。
[0005]强化学习代理通过接收表征环境的当前状态的观测值(observation)并且作为响应执行动作来与环境交互。一些强化学习代理使用神经网络来选择响应于接收到任何给定观测值而要执行的动作。
[0006]神经网络是采用一个或者多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或者多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层的输入，即下一隐藏层或者输出层的输入。网络的每个层根据相应参数集合的当前值来从接收到的输入生成输出。

技术实现思路

[0007]本说明书描述了与强化学习有关的技术。
[0008]大体上，一个创新方面可以体现为一种用于训练动作器神经网络的方法，该动作器神经网络被用于选择待由代理执行的动作，所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与环境交互，其中，动作器神经网络根据动作器神经网络的参数的当前值将观测值映射至接下来的动作，并且其中，该方法包括：从重演(replay)存储器获得小批经验元组，每个经验元组包括表征环境的训练状态的训练观测值、来自代理响应于接收到训练观测值而执行的...

【技术保护点】

【技术特征摘要】
1.一种用于训练动作器神经网络的方法，所述动作器神经网络被用于选择待由代理执行的动作，所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与所述环境交互，其中，所述动作器神经网络根据所述动作器神经网络的参数的当前值将观测值映射至接下来的动作，并且其中，所述方法包括：从重演存储器获得小批经验元组，每个经验元组包括表征所述环境的训练状态的训练观测值、来自所述代理响应于接收到所述训练观测值而执行的所述连续动作空间的训练动作、由所述代理接收的执行所述训练动作的训练奖励、和表征所述环境的下一训练状态的下一训练观测值；以及使用所述小批经验元组来更新所述动作器神经网络的参数的当前值，包括：对于所述小批中的每个经验元组：使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以根据所述评价器神经网络的参数的当前值来确定所述经验元组的神经网络输出，以及根据所述经验元组中的所述训练奖励和所述经验元组中的所述下一训练观测值来确定所述经验元组的目标神经网络输出，使用在所述目标神经网络输出与所述小批中的所述经验元组的所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前值；以及使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值。2.根据权利要求1所述的方法，其中，确定所述经验元组的目标神经网络输出包括：使用目标动作器神经网络处理所述下一训练观测值以根据所述目标动作器神经网络的参数的当前值来确定所述经验元组的预测的下一动作，其中，所述目标动作器神经网络与所述动作器神经网络完全相同，但是所述目标动作器神经网络的参数的当前值与所述动作器神经网络的参数的当前值不同；使用目标评价器神经网络处理所述经验元组的所述下一训练观测值和所述预测的下一动作以根据所述目标评价器神经网络的参数的当前值来生成预测的下一神经网络输出，其中，所述目标评价器神经网络与所述评价器神经网络完全相同，但是所述目标评价器神经网络的参数的当前值与所述评价器神经网络的参数的当前值不同；以及根据所述经验元组的所述训练奖励和所述预测的下一神经网络输出来确定所述经验元组的所述目标神经网络输出。3.根据权利要求2所述的方法，进一步包括：使用所述动作器神经网络的参数的所更新的值来更新所述目标动作器神经网络的参数的当前值；以及使用所述评价器神经网络的参数的所更新的值来更新所述目标评价器神经网络的参数的当前值。4.根据权利要求3所述的方法，其中，所述目标动作器神经网络和所述目标评价器神经网络的参数的当前值被约束为在所述动作器神经网络的所述训练期间缓慢地改变。5.根据权利要求1所述的方法，其中，所述评价器神经网络、所述动作器神经网络、或者两者包括一个或者多个批标准化神经网络层。6.根据权利要求1所述的方法，其中，由所述代理接收的所述观测值使用表征所述环境的状...

【专利技术属性】
技术研发人员：蒂莫西，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人