利用深度强化学习的连续控制制造技术

技术编号:34174300 阅读:20 留言:0更新日期:2022-07-17 11:32
本公开涉及利用深度强化学习的连续控制。训练动作器神经网络的方法、系统、和装置,包括编码在计算机存储介质上的计算机程序,所述动作器神经网络用于选择待由与环境交互的代理执行的动作。所述方法中的一个方法包括:获得小批经验元组;以及更新所述动作器神经网络的参数的当前值,包括:对于所述小批中的每个经验元组:使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以确定所述经验元组的神经网络输出,并且确定所述经验元组的目标神经网络输出;使用在所述目标神经网络输出与所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前值;以及使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值。经网络的参数的当前值。经网络的参数的当前值。

【技术实现步骤摘要】
利用深度强化学习的连续控制
[0001]分案说明
[0002]本申请属于申请日为2016年7月22日的中国专利技术专利申请201680043561.7的分案申请。


[0003]本公开涉及利用深度强化学习的连续控制。

技术介绍

[0004]本说明书涉及选择待由强化学习代理执行的动作。
[0005]强化学习代理通过接收表征环境的当前状态的观测值(observation)并且作为响应执行动作来与环境交互。一些强化学习代理使用神经网络来选择响应于接收到任何给定观测值而要执行的动作。
[0006]神经网络是采用一个或者多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或者多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层的输入,即下一隐藏层或者输出层的输入。网络的每个层根据相应参数集合的当前值来从接收到的输入生成输出。

技术实现思路

[0007]本说明书描述了与强化学习有关的技术。
[0008]大体上,一个创新方面可以体现为一种用于训练动作器神经网络的方法,该动作器神经网络被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与环境交互,其中,动作器神经网络根据动作器神经网络的参数的当前值将观测值映射至接下来的动作,并且其中,该方法包括:从重演(replay)存储器获得小批经验元组,每个经验元组包括表征环境的训练状态的训练观测值、来自代理响应于接收到训练观测值而执行的连续动作空间的训练动作、由代理接收的执行训练动作的训练奖励、和表征环境的下一训练状态的下一训练观测值;以及使用小批经验元组来更新动作器神经网络的参数的当前值,包括:对于小批中的每个经验元组:使用评价器神经网络来处理经验元组中的训练观测值和训练动作以根据评价器神经网络的参数的当前值来确定经验元组的神经网络输出;以及根据经验元组中的训练奖励和经验元组中的下一训练观测值来确定经验元组的目标神经网络输出;使用在目标神经网络输出与小批中的经验元组的神经网络输出之间的误差来更新评价器神经网络的参数的当前值;以及使用评价器神经网络来更新动作器神经网络的参数的当前值。
[0009]确定经验元组的目标神经网络输出可以包括:使用目标动作器神经网络处理下一训练观测值以根据目标动作器神经网络的参数的当前值来确定经验元组的预测的下一动作,其中,目标动作器神经网络与动作器神经网络完全相同,但是目标动作器神经网络的参数的当前值与动作器神经网络的参数的当前值不同;使用目标评价器神经网络处理经验元
组的下一训练观测值和预测的下一动作以根据目标评价器神经网络的参数的当前值来生成预测的下一神经网络输出,其中,目标评价器神经网络与评价器神经网络完全相同,但是目标评价器神经网络的参数的当前值与评价器神经网络的参数的当前值不同;以及根据经验元组的训练奖励和预测的下一神经网络输出来确定经验元组的目标神经网络输出。该方法可以进一步包括:使用动作器神经网络的参数的所更新的值来更新目标动作器神经网络的参数的当前值;以及使用评价器神经网络的参数的所更新的值来更新目标评价器神经网络的参数的当前值。可以将目标动作器神经网络和目标评价器神经网络的参数的当前值被约束为在动作器神经网络的训练期间缓慢地改变。
[0010]评价器神经网络、动作器神经网络、或者两者可以包括一个或者多个批标准化神经网络层。由代理接收的观测值可以通过使用表征环境的状态的低维特征向量来表征环境的状态。低维特征向量的不同维度的值可以具有不同的范围。由代理接收的观测值可以使用来自表征环境的状态的一个或者多个图像的高维像素输入来表征环境的状态。
[0011]该方法可以进一步包括:独立于使用小批经验元组来更新动作器神经网络的参数的当前值:生成新经验元组,包括:接收新训练观测值;使用动作器神经网络来处理新训练观测值以根据动作器神经网络的参数的当前值来选择待由代理执行的新训练动作;响应于代理执行新训练动作而接收新训练奖励;接收新下一训练观测值;以及生成包括新训练观测值、新训练动作、新训练奖励、和新下一训练观测值的新经验元组;以及将新经验元组添加至重演存储器中。使用动作器神经网络来处理新训练观测值以新训练动作可以包括:使用动作器神经网络来处理新训练观测值以生成初始新训练动作;从噪声过程进行采样以获得噪声因子;以及以噪声因子调整初始新动作来生成新训练动作。
[0012]该方法可以进一步包括:输出被布置为选择待由代理执行的动作的动作器神经网络。
[0013]可以在特定实施例中实施本说明书中所描述的主题以实现以下优点中的一个或者多个。强化学习系统可以有效地并且直接地学习高维连续动作空间中的代理的有效动作选择策略,即通过如本说明书中描述的那样训练动作器神经网络。具体地,通过如本说明书中描述的那样训练动作器神经网络,强化学习系统甚至可以针对要求精密控制动作的任务以及在动作空间难以进行离散化时有效地学习有效的动作选择策略并且然后有效地进行探索。此外,强化学习系统可以通过作为低维观测值的观测值和作为高维像素输入的观测值两者来学习有效策略。本主题可以提供对强化学习系统的改进训练以提供改进的强化学习系统,该改进的强化学习系统可以例如能够针对先前已经具有挑战性的任务学习动作选择策略。
[0014]要了解,可以按照任何便利的形式来实现每个方面。例如,可以通过适当的计算机程序来实现方面和实施方式,该计算机程序可以携载在可以是有形载体介质(例如,盘)或者无形载体介质(例如,通信信号)的适当载体介质上。还可以通过使用合适的装置来实现方面,该合适的装置可以是运行计算机程序的可编程计算机的形式。在附图和下面的描述中阐述了本说明书的主题的一个或者多个实施例的细节。本主题的其它特征、方面、和优点将通过描述、附图、以及权利要求书而变得显而易见。
附图说明
[0015]图1示出了示例强化学习系统。
[0016]图2是将经验元组添加至重演存储器的示例过程的流程图。
[0017]图3是确定对动作器神经网络的参数的当前值的更新的示例过程的流程图。
[0018]图4是确定经验元组的目标神经网络输出的示例过程的流程图。
[0019]各附图中的类似附图标记和名称指示类似的元素。
具体实施方式
[0020]本说明书大体上描述了一种强化学习系统,该强化学习系统选择待由与环境交互的强化学习代理执行的动作。为了与环境交互,该代理接收表征环境的当前状态的数据,并且响应于接收到的数据执行连续动作空间中的动作。本说明书中将表征环境的状态的数据称为观测值。
[0021]在一些实施方式中,环境是模拟环境,并且代理被实现为与该模拟环境交互的一个或者多个计算机程序。例如,模拟环境可以是视频游戏,并且代理可以是玩该视频游戏的模拟用户。作为另一示例,模拟环境可以是运动模拟环境,例如,驾驶模拟或者飞行模拟,并且代理是在该运动模拟环境中导航的模拟载具。在这些实施方式中,动作可以是控制模拟用户或者模拟本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练动作器神经网络的方法,所述动作器神经网络被用于选择待由代理执行的动作,所述代理通过接收表征环境的当前状态的观测值并且执行从连续动作空间中选择的动作来与所述环境交互,其中,所述动作器神经网络根据所述动作器神经网络的参数的当前值将观测值映射至接下来的动作,并且其中,所述方法包括:从重演存储器获得小批经验元组,每个经验元组包括表征所述环境的训练状态的训练观测值、来自所述代理响应于接收到所述训练观测值而执行的所述连续动作空间的训练动作、由所述代理接收的执行所述训练动作的训练奖励、和表征所述环境的下一训练状态的下一训练观测值;以及使用所述小批经验元组来更新所述动作器神经网络的参数的当前值,包括:对于所述小批中的每个经验元组:使用评价器神经网络来处理所述经验元组中的所述训练观测值和所述训练动作以根据所述评价器神经网络的参数的当前值来确定所述经验元组的神经网络输出,以及根据所述经验元组中的所述训练奖励和所述经验元组中的所述下一训练观测值来确定所述经验元组的目标神经网络输出,使用在所述目标神经网络输出与所述小批中的所述经验元组的所述神经网络输出之间的误差来更新所述评价器神经网络的参数的当前值;以及使用所述评价器神经网络来更新所述动作器神经网络的参数的当前值。2.根据权利要求1所述的方法,其中,确定所述经验元组的目标神经网络输出包括:使用目标动作器神经网络处理所述下一训练观测值以根据所述目标动作器神经网络的参数的当前值来确定所述经验元组的预测的下一动作,其中,所述目标动作器神经网络与所述动作器神经网络完全相同,但是所述目标动作器神经网络的参数的当前值与所述动作器神经网络的参数的当前值不同;使用目标评价器神经网络处理所述经验元组的所述下一训练观测值和所述预测的下一动作以根据所述目标评价器神经网络的参数的当前值来生成预测的下一神经网络输出,其中,所述目标评价器神经网络与所述评价器神经网络完全相同,但是所述目标评价器神经网络的参数的当前值与所述评价器神经网络的参数的当前值不同;以及根据所述经验元组的所述训练奖励和所述预测的下一神经网络输出来确定所述经验元组的所述目标神经网络输出。3.根据权利要求2所述的方法,进一步包括:使用所述动作器神经网络的参数的所更新的值来更新所述目标动作器神经网络的参数的当前值;以及使用所述评价器神经网络的参数的所更新的值来更新所述目标评价器神经网络的参数的当前值。4.根据权利要求3所述的方法,其中,所述目标动作器神经网络和所述目标评价器神经网络的参数的当前值被约束为在所述动作器神经网络的所述训练期间缓慢地改变。5.根据权利要求1所述的方法,其中,所述评价器神经网络、所述动作器神经网络、或者两者包括一个或者多个批标准化神经网络层。6.根据权利要求1所述的方法,其中,由所述代理接收的所述观测值使用表征所述环境的状...

【专利技术属性】
技术研发人员:蒂莫西
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1