使用Q学习与前瞻搜索相结合训练动作选择神经网络制造技术

技术编号:33363874 阅读:12 留言:0更新日期:2022-05-11 22:21
一种强化学习系统和方法,其选择要由与环境交互的智能体执行的动作。该系统使用强化学习和前瞻搜索的组合:强化学习Q值被用来引导前瞻搜索,并且搜索继而用于改进Q值。该系统从真实经验和模拟的基于模型的经验的组合中学习。习。习。

【技术实现步骤摘要】
【国外来华专利技术】使用Q学习与前瞻搜索相结合训练动作选择神经网络


[0001]本说明书涉及强化学习。

技术介绍

[0002]在强化学习系统中,智能体通过执行动作来与环境交互,所述动作由强化学习系统响应于接收到表征环境的当前状态的观测而进行选择。
[0003]根据神经网络的输出,一些强化学习系统响应于接收到给定观测而选择要由智能体执行的动作。
[0004]神经网络是采用一个或多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是包括除了输出层之外的一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入中生成输出。

技术实现思路

[0005]本说明书总体上描述了一种强化学习系统,其选择要由与环境交互的智能体执行的动作。所描述的系统使用强化学习(例如Q学习)和前瞻搜索的组合来改进性能。该方法在用于前瞻搜索的计算预算有限的情况下以及在复杂环境中特别有用。
[0006]在一个方面,描述了一种学习选择要由在环境中执行任务的智能体来执行的动作的方法。动作选择神经网络被配置成从表征所述环境的状态的输入观测接收数据,并且根据动作选择神经网络参数处理所述输入观测以生成动作选择输出,所述动作选择输出用于定义用于选择要由所述智能体执行的动作的动作选择分数集(Q
θ
)。动作选择输出可以例如提供Q值,即状态动作值,或者可以定义(多变量)分布,从中可以对Q值进行采样。
[0007]该方法可以包括接收表征环境的当前状态的观测。该方法还可以包括从环境的当前状态对环境的可能的未来状态执行前瞻搜索,例如,从当前状态开始。执行前瞻搜索可以包括:在一系列搜索步骤中的每个搜索步骤处,通过使用动作选择神经网络处理表征搜索步骤处的环境的状态的数据来确定动作,以帮助选择用于该搜索步骤的动作,例如,通过选择具有由搜索(Q
k
)细化的最大Q值的动作。因此,在实现方式中,动作选择神经网络为搜索提供先前状态动作值集。该方法可以包括使用智能体/环境的模型来处理用于搜索步骤的动作,以确定表征下一搜索步骤处的环境的状态的数据。模型可以是例如环境中的智能体的模拟器或能够从表征环境的当前状态和所选动作的数据生成表征环境的下一状态的数据的学习模型。
[0008]该方法还可以包括根据前瞻搜索的结果确定针对环境的当前状态的一个或多个更新的动作选择分数,例如用于状态

动作对的更新的Q值(Q
MCTS
)。该方法还可以包括使用(一个或多个)所更新的动作选择分数(例如直接使用Q值或通过从使用更新的分数更新的分布中采样)来选择要由智能体执行的动作。
[0009]该方法还可以包括接收表征环境的下一状态的观测,并且在回放池中存储转移数
据,该转移数据表征:环境的当前状态、动作、环境的下一状态、响应于智能体执行动作而接收的奖励(可能没有奖励)以及更新的动作选择分数。可以针对状态中的多个不同动作存储该数据。
[0010]该方法还可以包括对存储在回放池中的转移数据进行采样,并且使用从所采样的转移数据确定的目标函数的梯度(例如通过反向传播梯度)来调整动作选择神经网络参数。目标函数可以包括取决于所接收的奖励的第一项(例如,TD学习或Q学习项)以及取决于(一个或多个)更新的动作选择分数的第二项。第二项可以朝向由(一个或多个)更新的动作选择分数表征的Q值分布回归动作选择分数,例如Q值。
[0011]在一些实现方式中,该方法使用真实经验和过去前瞻搜索的结果的组合来改进Q函数估计器,即动作选择神经网络,其引导下一搜索。更具体地,在实现方式中,Q学习为前瞻搜索提供了强先验,并且目标函数的第二项取决于搜索结果摊销损失以改进Q函数。这可以提供优于使用状态访问计数的一些其它方法的优点。
[0012]在一些实现方式中,执行前瞻搜索包括例如从表示环境的当前状态的根节点搜索具有表示环境的状态的节点的状态树。一系列搜索步骤可以继续到搜索的终端节点。这通常不是任务或强化学习情节的终端状态,其可以由任务的成功或失败来定义。
[0013]该方法还可以包括处理表征环境的终端搜索状态的数据,以确定针对环境的终端搜索状态的动作选择输出。然后,该方法可以根据针对环境的终端搜索状态的动作选择输出来确定对前瞻搜索的结果的贡献,例如通过将针对环境的终端搜索状态的动作选择输出用作终端搜索状态的值的估计。例如,终端搜索状态的值的估计可以包括最大动作选择分数(Q值),或者可以通过从根据针对环境的终端搜索状态的动作选择输出定义的分布进行采样来估计该值。
[0014]确定前瞻搜索的结果还可以包括例如使用模型和/或通过神经网络预测(一个或多个)奖励,估计来自搜索树中的根节点和终端节点之间的节点的奖励;奖励可以在搜索步骤中打折。(打折的)奖励可以被添加到根据如前所述的针对环境的终端搜索状态的动作选择输出而确定的终端状态的估计值。也就是说,确定(一个或多个)更新的动作选择分数可以包括将从前瞻搜索的结果导出的值与来自针对环境的当前状态的动作选择输出的动作选择分数相加。因此,可以由来自动作选择神经网络的状态

动作对的动作选择分数、搜索的终端状态的(估计)值以及由智能体在状态和终端状态之间接收的奖励或估计奖励的组合来确定用于该状态

动作对的更新的动作选择分数。
[0015]在实现方式中,动作选择神经网络的动作选择输出包括动作选择分数(例如,Q值)集。使用动作选择神经网络为搜索步骤选择动作可以包括为搜索步骤选择具有最大动作选择分数的动作。针对环境的终端搜索状态的动作选择输出可以包括针对环境的终端搜索状态的最大动作选择分数。
[0016]在实现方式中,目标函数的第一项包括时间差(TD)学习项,该时间差学习项取决于针对环境的当前状态的动作选择神经网络的输出与所接收的奖励和由动作选择神经网络从环境的下一状态估计的未来奖励的组合之间的差。在此,当前状态和下一状态是指从回放池采样的转移数据中的那些状态。差可以是数值的,或者可以是分布之间的差。如前所述,动作选择分数集可以包括用于动作的离散集合的Q值,并且动作选择输出可以包括Q值输出。TD学习项可以实现例如TD(0)、TD(1)或TD(λ)学习(自举(bootstrapping)到未来n步
的加权估计回报)。
[0017]在一些实现方式中,动作选择网络输出可以定义预测的预期回报,即,由环境处于当前状态产生的时间折扣回报的估计。
[0018]一般而言,该方法和对应的系统可以应用于一系列不同的强化学习技术,包括例如Q学习技术。因此,方法/系统可以使用强化学习目标的梯度迭代地调整动作选择神经网络参数的值,即相对于参数的目标函数的第一项以增加由系统接收的奖励的累积度量。仅作为示例,本文描述的技术可以使用如在Mnih等(arXiv:1312.5602),R2D2(Recurrent Replay Distributed DQN(循环本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种学习选择要由在环境中执行任务的智能体来执行的动作的计算机实现的方法,其中,动作选择神经网络被配置成从表征所述环境的状态的输入观测接收数据、并且根据动作选择神经网络参数处理所述输入观测以生成动作选择输出,所述动作选择输出用于定义用于选择要由所述智能体执行的动作的动作选择分数集,其中,所述方法包括:接收表征所述环境的当前状态的观测;从所述环境的当前状态对所述环境的可能未来状态执行前瞻搜索,其中,执行所述前瞻搜索包括:在一系列搜索步骤中的每个搜索步骤处,通过使用所述动作选择神经网络处理表征所述搜索步骤处的所述环境的状态的数据以选择用于所述搜索步骤的动作来确定动作;以及使用模型来处理用于所述搜索步骤的所述动作以确定表征下一搜索步骤处的所述环境的状态的数据;根据所述前瞻搜索的结果确定针对所述环境的当前状态的更新的动作选择分数;使用所述更新的动作选择分数来选择要由所述智能体执行的动作;接收表征所述环境的下一状态的观测;在回放池中存储转移数据,所述转移数据表征:所述环境的当前状态、所述动作、所述环境的所述下一状态、响应于所述智能体执行所述动作而接收的奖励以及所述更新的动作选择分数;对存储在所述回放池中的所述转移数据进行采样;以及使用根据所采样的转移数据确定的目标函数的梯度来调整所述动作选择神经网络参数,其中,所述目标函数包括第一项和第二项,其中所述第一项取决于所接收的奖励,所述第二项取决于所述更新的动作选择分数。2.根据权利要求1所述的方法,其中,执行所述前瞻搜索包括从表示所述环境的当前状态的根节点开始搜索具有表示所述环境的状态的节点的状态树,其中,所述一系列搜索步骤继续到所述搜索的终端节点,所述方法还包括处理表征所述环境的终端搜索状态的数据以确定针对所述环境的终端搜索状态的动作选择输出,以及根据针对所述环境的所述终端搜索状态的所述动作选择输出来确定所述前瞻搜索的结果。3.根据权利要求2所述的方法,其中,确定所述前瞻搜索的结果还包括:估计来自所述搜索树的在所述根节点和所述终端节点之间的节点的奖励;以及将所估计的奖励添加到根据针对所述环境的所述终端搜索状态的所述动作选择输出而确定的所述终端状态的估计值。4.根据权利要求2或3所述的方法,其中,确定所述更新的动作选择分数包括将由所述前瞻搜索的结果导出的值与来自针对所述环境的当前状态的所述动作选择输出的动作选择分数相加。5.根据前述权利要求中的任一项所述的方法,其中,所述动作选择神经网络的动作选择输出包括所述动作选择分数集,并且其中,使用所述动作选择神经网络为所述搜索步骤选择动作包括为所述搜索步骤选择具有最大动作选择分数的动作。6.根据当从属于权利要求2时的权利要求5所述的方法,其中,针对所述环境的所述终端搜索状态的所述动作选择输出包括针对所述环境的所述终端搜索状态的最大动作选择分数。
7.根据前述权利要求中的任一项所述的方法,其中,所述目标函数的所述第一项包括时间差学习项,所述时间差学习项基于从所述回放池采样的转移数据而取决于在所述动作选择神经网络针对所述环境的当前状态的输出与所接收的奖励和来自所述动作选择神经网络的来自所述环境的下一状态的估计未来回报的组合之间的差。8.根据前述权利要求中的任一项所述的方法,其中,所述目标函数的所述第二项基...

【专利技术属性】
技术研发人员:杰西卡
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1