【技术实现步骤摘要】
【国外来华专利技术】使用后见之明建模来训练动作选择神经网络
技术介绍
[0001]本说明书涉及强化学习。
[0002]在强化学习系统中,智能体(agent)通过执行动作来与环境交互,所述动作由强化学习系统响应于接收到表征环境的当前状态的观测而进行选择。
[0003]根据神经网络的输出,一些强化学习系统响应于接收到给定观测而选择要由智能体执行的动作。
[0004]神经网络是采用一个或多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是包括除了输出层之外的一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中的下一层(即下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入中生成输出。
技术实现思路
[0005]本说明书大体上描述一种强化学习方法和系统,所述强化学习方法和系统选择要由与环境交互的强化学习智能体执行的动作。所描述的方法和系统的一些实施方案旨在使用后见之明(hindsight)来学习因果模型。这样会引导动作选择,特别是将模型专注于在环境方面,这些方面对于估计环境的当前状态值非常有用。在整个说明书中,对状态值的引用可以包括与动作相结合的状态值。
[0006]在一个方面中,描述一种强化学习的方法。所述方法可以包括训练动作选择神经网络系统,以选择要由在环境中执行任务的智能体来执行的动作。动作选择神经网络系统可以被配置成从表征环境的当前状态的观测中接收数据。动作选择神经网络系统还可以被配置成从模型神经网络的输出接收数据。动作选择神经网络系统可以根据动作选择神经网络系统参数 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种强化学习的计算机实施的方法,包括:训练动作选择神经网络系统,以选择要由在环境中执行任务的智能体来执行的动作;其中,所述动作选择神经网络系统被配置成从i)表征所述环境的当前状态的观测、以及ii)模型神经网络的输出接收输入数据,并且根据动作选择神经网络系统参数处理所述输入数据,以生成用于选择要由所述智能体执行的所述动作的动作选择输出;以及其中,所述模型神经网络被配置成接收从表征所述环境的当前状态的所述观测得到的输入,并且所述模型神经网络的输出表征预测的状态轨迹,所述预测的状态轨迹包括从所述当前状态开始的所述环境的一系列k个预测的未来状态;其中,所述方法还包括:通过以下操作来训练具有表征状态轨迹的输出的后见之明模型神经网络,所述状态轨迹包括从时间步t处的所述环境的状态开始的所述环境的一系列k个状态:处理来自表征在所述时间步t处和在一系列k个后续时间步处的所述环境的状态的一个或多个观测的数据、以及使用所述时间步t的训练目标调整所述后见之明模型神经网络的参数;以及训练所述模型神经网络的输出,以近似所述后见之明模型神经网络的输出。2.根据权利要求1所述的方法,其中,训练所述后见之明模型包括:使用后见之明值神经网络处理所述后见之明模型神经网络的输出以及处理来自表征所述时间步t处的所述环境的状态的所述观测的数据,以生成在所述时间步t处的所述环境的状态的所估计的后见之明值或状态
‑
动作值,并且反向传播取决于在所述时间步t处的所述环境的状态的所估计的后见之明值或状态
‑
动作值与所述时间步t的所述训练目标之间的差异的目标函数的梯度,以更新所述后见之明值神经网络的参数以及所述后见之明模型神经网络的参数。3.根据权利要求2所述的方法,其中,所述动作选择神经网络系统包括状态值神经网络,用于选择或学习选择要由所述智能体执行的所述动作。4.根据权利要求3所述的方法,其中,训练所述动作选择神经网络系统包括:反向传播取决于使用所述状态值神经网络来确定的所述环境的当前状态的状态值或状态
‑
动作值与所述环境的当前状态的所估计的回报或状态
‑
动作值之间的差异的目标函数的梯度。5.根据权利要求3或4所述的方法,其中,所述动作选择神经网络系统具有与所述模型神经网络相同的参数。6.根据权利要求2至5中的任一项所述的方法,还包括将从表征所述环境的状态的所述观测接收数据的一个或多个循环神经网络(RNN)层的内部状态作为输入提供到所述动作选择神经网络系统和所述后见之明值神经网络。7.根据权利要求1至6中的任一项所述的方法,还包括将从表征所述环境的状态的所述观测接收数据的一个或多个循环神经网络(RNN)层的内部状态作为输入提供到所述后见之明模型神经网络和所述模型神经网络。8.根据前述权利要求中的任一项所述的方法,其中,所述时间步t的所述训练目标包括所述时间步t的状态值或状态
‑
动作值目标。9.根据前述权利要求中的任一项所述的方法,其中,所述时间步t的所述训练目标包括所述时间步t的所估计的回报。10.根据前述权利要求中的任一项所述的方法,其中,训练所述模型神经网络的输出以近似所述后见之明模型神经网络的输出包括:反向传播取决于所述后见之明模型神经网络
的表征所述状态轨迹的所述输出与所述模型神经网络的表征所述预测的状态轨迹的所述输出之间的差异的目标函数的梯度。11.根据前述权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。