使用后见之明建模来训练动作选择神经网络制造技术

技术编号:33363118 阅读:19 留言:0更新日期:2022-05-11 22:19
一种强化学习方法和系统,所述强化学习方法和系统选择要由与环境交互的强化学习智能体执行的动作。因果模型由后见之明模型神经网络实施并且使用后见之明,即使用未来环境状态轨迹进行训练。由于所述方法和系统在选择动作时无法访问这种未来信息,因此使用所述后见之明模型神经网络来训练模型神经网络,所述模型神经网络以来自当前观测的数据为条件,所述模型神经网络学习预测所述后见之明模型神经网络的输出。络的输出。络的输出。

【技术实现步骤摘要】
【国外来华专利技术】使用后见之明建模来训练动作选择神经网络

技术介绍

[0001]本说明书涉及强化学习。
[0002]在强化学习系统中,智能体(agent)通过执行动作来与环境交互,所述动作由强化学习系统响应于接收到表征环境的当前状态的观测而进行选择。
[0003]根据神经网络的输出,一些强化学习系统响应于接收到给定观测而选择要由智能体执行的动作。
[0004]神经网络是采用一个或多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是包括除了输出层之外的一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中的下一层(即下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入中生成输出。

技术实现思路

[0005]本说明书大体上描述一种强化学习方法和系统,所述强化学习方法和系统选择要由与环境交互的强化学习智能体执行的动作。所描述的方法和系统的一些实施方案旨在使用后见之明(hindsight)来学习因果模型。这样会引导动作选择,特别是将模型专注于在环境方面,这些方面对于估计环境的当前状态值非常有用。在整个说明书中,对状态值的引用可以包括与动作相结合的状态值。
[0006]在一个方面中,描述一种强化学习的方法。所述方法可以包括训练动作选择神经网络系统,以选择要由在环境中执行任务的智能体来执行的动作。动作选择神经网络系统可以被配置成从表征环境的当前状态的观测中接收数据。动作选择神经网络系统还可以被配置成从模型神经网络的输出接收数据。动作选择神经网络系统可以根据动作选择神经网络系统参数处理输入数据以生成动作选择输出,用于选择要由智能体执行的动作。
[0007]模型神经网络可以被配置成接收来自表征环境的当前状态的观测(从其获得)的输入。模型神经网络的输出可以表征预测的状态轨迹,包括从当前状态开始的环境的一系列k个预测的未来状态。
[0008]所述方法可以包括训练后见之明模型神经网络,所述后见之明模型神经网络具有表征状态轨迹的输出,所述状态轨迹包括从时间步t处的环境的状态开始的环境的一系列k个状态。训练可以包括:线上或线下地处理来自一个或多个观测(例如,一系列观测)的数据,所述一个或多个观测表征在时间步t处和一系列k个后续时间步处的环境的状态;以及使用时间步t的训练目标调整后见之明模型神经网络的参数。所述方法还可以包括训练模型神经网络的输出,以近似(approximate)后见之明模型神经网络的输出。
[0009]在实施方案中,后见之明模型能够从比来自环境的奖励所提供的信息更为丰富的信息流中学习,其中来自环境的奖励通常用于强化学习系统的无模型训练。例如,后见之明模型能够学习来表示状态的轨迹,其中这些状态在适当的时候会产生奖励。
[0010]更具体地说,后见之明模型可以学习来表示对于接收奖励很重要的状态轨迹的特定方面。因此,后见之明模型不是学习对观测中的所有细节进行建模,而是具有低维特征向
量表示输出,以及可选地相对较短的前向(即,后见之明)时间窗。这些鼓励后见之明模型专注于为对训练目标有用的观测的特定方面(例如,状态值或状态

动作值预测)进行建模,从而加快训练并减少必要的计算。然而,由于此信息只能后见之明地获得,因此模型神经网络被训练为使用后见之明模型从环境的当前状态预测这一点。后见之明模型可以处理固定数量的k个未来状态;在实施方案中,k可以小于50、20或10,例如约为5。
[0011]在一些实施方案中,因此可以训练后见之明模型以对观测的各个方面进行建模,所述方面可以有助于提供更好的状态(以及状态

动作对)的值预测,并且因此有用于训练动作选择神经网络。通过这种方式,可以训练模型以专注于环境中对要执行的任务最重要的那些方面。所述模型也可能比其它情况更简单。
[0012]在一些实施方案中,时间步t的训练目标可以是与要执行的任务相关的任何目标。
[0013]例如,时间步t的训练目标可以包括时间步t的状态值目标,或者可以从时间步t的一个或多个状态

动作值目标得到。例如,时间步t的训练目标可以定义从时间步t处的环境的状态的预期回报,例如由智能体从时间步t处的环境的状态接收到的预期累积奖励。
[0014]更具体来说,训练后见之明模型可以包括使用后见之明值神经网络处理后见之明模型神经网络的输出和表征时间步t处的环境的状态的观测,以生成在时间步t处的环境的状态的所估计的后见之明值或状态

动作值。该方法然后可以反向传播取决于在时间步t处的环境的状态的所估计的后见之明值或状态

动作值与时间步t的训练目标之间的差异的目标函数的梯度,以更新后见之明值神经网络的参数以及后见之明模型神经网络的参数。因此,学习后见之明值的过程可以用于训练后见之明模型。
[0015]在一些实施方案中,时间步t的训练目标(G)包括时间步t的实际回报(例如,在使用蒙特卡罗学习的情况下);在其它实施方案中,时间步t的训练目标包括时间步t的所估计的回报(例如,在使用时间差TD学习的情况下)。此处,回报是指由智能体接收到的奖励的累积度量的回报,例如奖励的时间折扣总和。例如,时间步t的回报可以包括在时间步t+1处的实际回报和后续时间步的所估计的回报的组合,例如在时间步t+1处的环境的状态的后见之明值减少了折扣因子γ<1(TD(0));或者例如可以使用n步回报,例如TD(λ))。用于训练值神经网络的差值可以包括TD误差差值。
[0016]训练模型神经网络的输出以近似后见之明模型神经网络的输出可以包括反向传播取决于(向量值)输出之间(即状态轨迹的特征与预测的状态轨迹的特征之间)的差异的目标函数的梯度。这些特征可以表示轨迹的各个方面,这些方面可用于预测在当前时间步t处的状态

动作值的值。差异可以包括例如L2范数或交叉熵损失。模型神经网络和后见之明模型神经网络可以例如依序地联合或单独训练。
[0017]在一些实施方案中,所述方法、所述后见之明模型神经网络被配置成以比动作选择神经网络系统更慢的速率学习(例如,通过选择学习速率参数),以促进模型神经网络的输出学习以近似后见之明模型神经网络的输出。
[0018]在实施方案中,后见之明模型神经网络的表征状态轨迹的输出和模型神经网络的表征预测的状态轨迹的输出各自包括环境的一个或多个观测的(多维)降维表示。这可以促进加快或减少对(预测的)状态轨迹的有用表示的计算学习,并且可以有助于鼓励对预测状态值有用的表示。例如,后见之明模型神经网络的表征状态轨迹的输出和模型神经网络的表征预测的状态轨迹的输出各自可以包括维度小于它们的输入的维度或小于20、10或5(但
不是标量)的特征向量。
[0019]可以线上或线下(例如,离线)执行训练模型神经网络和后见之明模型神经网络。在线上执行训练的情况下,可以提供k状态缓冲区,以便训练可以有效地提供过去的k个状态。
[0020]因此,所述方法还可以包括维护存储器,所述存储器存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种强化学习的计算机实施的方法,包括:训练动作选择神经网络系统,以选择要由在环境中执行任务的智能体来执行的动作;其中,所述动作选择神经网络系统被配置成从i)表征所述环境的当前状态的观测、以及ii)模型神经网络的输出接收输入数据,并且根据动作选择神经网络系统参数处理所述输入数据,以生成用于选择要由所述智能体执行的所述动作的动作选择输出;以及其中,所述模型神经网络被配置成接收从表征所述环境的当前状态的所述观测得到的输入,并且所述模型神经网络的输出表征预测的状态轨迹,所述预测的状态轨迹包括从所述当前状态开始的所述环境的一系列k个预测的未来状态;其中,所述方法还包括:通过以下操作来训练具有表征状态轨迹的输出的后见之明模型神经网络,所述状态轨迹包括从时间步t处的所述环境的状态开始的所述环境的一系列k个状态:处理来自表征在所述时间步t处和在一系列k个后续时间步处的所述环境的状态的一个或多个观测的数据、以及使用所述时间步t的训练目标调整所述后见之明模型神经网络的参数;以及训练所述模型神经网络的输出,以近似所述后见之明模型神经网络的输出。2.根据权利要求1所述的方法,其中,训练所述后见之明模型包括:使用后见之明值神经网络处理所述后见之明模型神经网络的输出以及处理来自表征所述时间步t处的所述环境的状态的所述观测的数据,以生成在所述时间步t处的所述环境的状态的所估计的后见之明值或状态

动作值,并且反向传播取决于在所述时间步t处的所述环境的状态的所估计的后见之明值或状态

动作值与所述时间步t的所述训练目标之间的差异的目标函数的梯度,以更新所述后见之明值神经网络的参数以及所述后见之明模型神经网络的参数。3.根据权利要求2所述的方法,其中,所述动作选择神经网络系统包括状态值神经网络,用于选择或学习选择要由所述智能体执行的所述动作。4.根据权利要求3所述的方法,其中,训练所述动作选择神经网络系统包括:反向传播取决于使用所述状态值神经网络来确定的所述环境的当前状态的状态值或状态

动作值与所述环境的当前状态的所估计的回报或状态

动作值之间的差异的目标函数的梯度。5.根据权利要求3或4所述的方法,其中,所述动作选择神经网络系统具有与所述模型神经网络相同的参数。6.根据权利要求2至5中的任一项所述的方法,还包括将从表征所述环境的状态的所述观测接收数据的一个或多个循环神经网络(RNN)层的内部状态作为输入提供到所述动作选择神经网络系统和所述后见之明值神经网络。7.根据权利要求1至6中的任一项所述的方法,还包括将从表征所述环境的状态的所述观测接收数据的一个或多个循环神经网络(RNN)层的内部状态作为输入提供到所述后见之明模型神经网络和所述模型神经网络。8.根据前述权利要求中的任一项所述的方法,其中,所述时间步t的所述训练目标包括所述时间步t的状态值或状态

动作值目标。9.根据前述权利要求中的任一项所述的方法,其中,所述时间步t的所述训练目标包括所述时间步t的所估计的回报。10.根据前述权利要求中的任一项所述的方法,其中,训练所述模型神经网络的输出以近似所述后见之明模型神经网络的输出包括:反向传播取决于所述后见之明模型神经网络
的表征所述状态轨迹的所述输出与所述模型神经网络的表征所述预测的状态轨迹的所述输出之间的差异的目标函数的梯度。11.根据前述权利要...

【专利技术属性】
技术研发人员:亚瑟
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1