【技术实现步骤摘要】
【国外来华专利技术】通过最小化妄想影响来确定控制策略
[0001]相关申请的交叉引用
[0002]本申请要求申请日为2018年10月29日、申请序列号为62/752,306的美国申请的优先权权益,其全部内容通过引用并入本文。
[0003]本说明书涉及强化学习。
技术介绍
[0004]在强化学习系统中,代理通过执行由强化学习系统响应于接收到用于表征环境当前状态的观察而选择的动作来与环境交互。
[0005]一些强化学习系统响应于接收到给定观察,根据神经网络的输出来选择待由代理执行的动作。
[0006]神经网络是一种机器学习模型,其采用一层或多层非线性单元来预测针对所接收输入的输出。一些神经网络是深度神经网络,除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作所述网络中下一层的输入,即下一隐藏层或输出层。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。
技术实现思路
[0007]本说明书总体上描述一种增强学习系统,该系统控制与环境交互的代理,并且特别是确定用于控制所述代理的控制策略 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种确定用于与环境交互的代理的控制策略的方法,所述方法包括:维持用于定义多个信息集的数据,每个信息集对应于相应的策略约束集并且标识由所述控制策略在所述策略约束集下分配给观察
‑
动作对的Q值;接收用于表征所述环境的当前状态的当前观察、由所述代理响应于所述当前观察而执行的当前动作、用于表征所述环境的下一状态的下一观察、以及作为所述代理执行所述当前动作的结果而接收的奖励;确定用于所述控制策略的在当前观察
‑
当前动作对的策略一致的备份,包括:针对能够由所述代理执行的可能动作集中的多个动作中的每个动作,标识由所述控制策略分配给所述控制策略的下一观察
‑
动作对的并且由所述信息集中的至少一个来证明的Q值;从所标识的Q值中修剪仅由不是策略类一致的信息集证明的任何Q值;以及从所述奖励和仅未被修剪的所标识的Q值来确定所述策略一致的备份;以及通过使用Q学习而使用所述策略一致的备份来更新所述代理的控制策略。2.根据权利要求1所述的方法,其中,通过使用Q学习而使用所述策略一致的备份来更新所述代理的控制策略包括:通过使用无模型Q学习来更新所述控制策略,并且其中,从所述奖励和仅未被修剪的所标识的Q值来确定所述策略一致的备份包括:确定Q备份。3.根据前述权利要求中任一项所述的方法,其中,所述策略一致的备份包括针对用于证明未被修剪的Q值的每个信息集的相应的备份。4.根据权利要求3所述的方法,其中,所述相应的备份是基于(i)所述奖励和(ii)未被修剪并由所述信息集证明的Q值。5.根据前述权利要求中任一项所述的方法,其中,不是策略类一致的信息集是施加导致所述控制策略响应于所述当前观察而未选择所述当前动作的策略约束的那些信息集。6.一种确定用于与环境交互的代理的控制策略的方法,所述方法包括:维持用于定义多个信息集的数据,每个信息集对应于相应的策略约束集并且标识由所述控制策略在所述策略约束集下分配给观察
‑
动作对的Q值;接收用于表征所述环境的当前状态的当前观察、由所述代理根据当前控制策略响应于所述当前观察而执行的当前动作、以及作为所述代理执行所述当前动作的结果而接收的奖励;确定用于所述控制策略的在当前观察
‑
当前动作对的策略一致的备份,包括:针对多个下一状态中的每个状态:针对能够由所述代理执行的可能动作集中的多个动作中的每个动作,标识由所述控制策略分配给所述控制策略的下一观察
‑
动作对的并且由所述信息集中的至少一个来证明的Q值,其中,所述下一观察是用于表征所述下一状态的观察;以及从所标识的Q值中修剪仅由不是策略类一致的信息集证明的任何Q值;以及...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。