使用Q学习与前瞻搜索相结合训练动作选择神经网络制造技术

技术编号：33363874 阅读：12 留言：0更新日期：2022-05-11 22:21

一种强化学习系统和方法，其选择要由与环境交互的智能体执行的动作。该系统使用强化学习和前瞻搜索的组合：强化学习Q值被用来引导前瞻搜索，并且搜索继而用于改进Q值。该系统从真实经验和模拟的基于模型的经验的组合中学习。习。习。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用Q学习与前瞻搜索相结合训练动作选择神经网络

[0001]本说明书涉及强化学习。

技术介绍

[0002]在强化学习系统中，智能体通过执行动作来与环境交互，所述动作由强化学习系统响应于接收到表征环境的当前状态的观测而进行选择。
[0003]根据神经网络的输出，一些强化学习系统响应于接收到给定观测而选择要由智能体执行的动作。
[0004]神经网络是采用一个或多个非线性单元层来预测接收到的输入的输出的机器学习模型。一些神经网络是包括除了输出层之外的一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入中生成输出。

技术实现思路

[0005]本说明书总体上描述了一种强化学习系统，其选择要由与环境交互的智能体执行的动作。所描述的系统使用强化学习(例如Q学习)和前瞻搜索的组合来改进性能。该方法在用于前瞻搜索的计算预算有限的情况下以及在复杂环境中特别有用。
[0006]在一个方面，描述了一种学习选择要由在环境中执行任务的智能体来执行的动作的方法。动作选择神经网络被配置成从表征所述环境的状态的输入观测接收数据，并且根据动作选择神经网络参数处理所述输入观测以生成动作选择输出，所述动作选择输出用于定义用于选择要由所述智能体执行的动作的动作选择分数集(Q
θ
)。动作选择输出可以例如提供Q值，即状态动作值，或者可以定义(多变量)分布，从中可以对Q值进行采样。
[0007]该方法可以...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种学习选择要由在环境中执行任务的智能体来执行的动作的计算机实现的方法，其中，动作选择神经网络被配置成从表征所述环境的状态的输入观测接收数据、并且根据动作选择神经网络参数处理所述输入观测以生成动作选择输出，所述动作选择输出用于定义用于选择要由所述智能体执行的动作的动作选择分数集，其中，所述方法包括：接收表征所述环境的当前状态的观测；从所述环境的当前状态对所述环境的可能未来状态执行前瞻搜索，其中，执行所述前瞻搜索包括：在一系列搜索步骤中的每个搜索步骤处，通过使用所述动作选择神经网络处理表征所述搜索步骤处的所述环境的状态的数据以选择用于所述搜索步骤的动作来确定动作；以及使用模型来处理用于所述搜索步骤的所述动作以确定表征下一搜索步骤处的所述环境的状态的数据；根据所述前瞻搜索的结果确定针对所述环境的当前状态的更新的动作选择分数；使用所述更新的动作选择分数来选择要由所述智能体执行的动作；接收表征所述环境的下一状态的观测；在回放池中存储转移数据，所述转移数据表征：所述环境的当前状态、所述动作、所述环境的所述下一状态、响应于所述智能体执行所述动作而接收的奖励以及所述更新的动作选择分数；对存储在所述回放池中的所述转移数据进行采样；以及使用根据所采样的转移数据确定的目标函数的梯度来调整所述动作选择神经网络参数，其中，所述目标函数包括第一项和第二项，其中所述第一项取决于所接收的奖励，所述第二项取决于所述更新的动作选择分数。2.根据权利要求1所述的方法，其中，执行所述前瞻搜索包括从表示所述环境的当前状态的根节点开始搜索具有表示所述环境的状态的节点的状态树，其中，所述一系列搜索步骤继续到所述搜索的终端节点，所述方法还包括处理表征所述环境的终端搜索状态的数据以确定针对所述环境的终端搜索状态的动作选择输出，以及根据针对所述环境的所述终端搜索状态的所述动作选择输出来确定所述前瞻搜索的结果。3.根据权利要求2所述的方法，其中，确定所述前瞻搜索的结果还包括：估计来自所述搜索树的在所述根节点和所述终端节点之间的节点的奖励；以及将所估计的奖励添加到根据针对所述环境的所述终端搜索状态的所述动作选择输出而确定的所述终端状态的估计值。4.根据权利要求2或3所述的方法，其中，确定所述更新的动作选择分数包括将由所述前瞻搜索的结果导出的值与来自针对所述环境的当前状态的所述动作选择输出的动作选择分数相加。5.根据前述权利要求中的任一项所述的方法，其中，所述动作选择神经网络的动作选择输出包括所述动作选择分数集，并且其中，使用所述动作选择神经网络为所述搜索步骤选择动作包括为所述搜索步骤选择具有最大动作选择分数的动作。6.根据当从属于权利要求2时的权利要求5所述的方法，其中，针对所述环境的所述终端搜索状态的所述动作选择输出包括针对所述环境的所述终端搜索状态的最大动作选择分数。
7.根据前述权利要求中的任一项所述的方法，其中，所述目标函数的所述第一项包括时间差学习项，所述时间差学习项基于从所述回放池采样的转移数据而取决于在所述动作选择神经网络针对所述环境的当前状态的输出与所接收的奖励和来自所述动作选择神经网络的来自所述环境的下一状态的估计未来回报的组合之间的差。8.根据前述权利要求中的任一项所述的方法，其中，所述目标函数的所述第二项基...

【专利技术属性】
技术研发人员：杰西卡，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人