使用上下文信息进行蒙特卡罗规划的方法和系统技术方案

技术编号:8934668 阅读:169 留言:0更新日期:2013-07-18 03:16
本发明专利技术涉及一种使用上下文信息进行蒙特卡罗规划的方法和系统。提供了用于选择规划问题状态下的操作的方法、系统和计算机程序产品。所述系统从所述规划问题的当前状态开始模拟一个或多个系列的操作、状态转变和回报。在模拟在给定状态下执行给定操作期间,维护包括由所述操作产生的所观察的上下文状态信息和所观察的累积回报的数据记录。所述系统针对所述数据记录执行回归拟合,从而能够根据上下文状态估计预期回报。所述预期回报的估计用于在所述模拟期间指导操作的选择。在完成所有模拟时,推荐在模拟期间获得最高平均回报的顶级操作,以便在所述规划问题的当前状态下执行。

【技术实现步骤摘要】

本公开一般地涉及用于例如在实际域中进行规划和序贯决策(sequentialdecision making)的系统和方法。更具体地说,本申请涉及使用可观察状态信息的创新性分解通过蒙特卡罗模拟试验进行规划,所述信息分解能够比使用既定的最新方法处理更大的状态空间。
技术介绍
规划问题(也称为序贯决策问题)通常由以下项来表征:所述问题的一组可能状态、可以在每个状态下执行的一组可允许的操作、用于在给定当前状态和当前选定操作下生成向后续状态的转变的过程、规划周期(即,在所述问题中要进行的总预期决策数量),以及在所述规划问题的一个或多个步骤处获得的效用或回报的度量。通常,目标是计算一系列最大化预期累积折扣或未折扣回报的决策。此外,规划问题假设可在序列中的每个步骤处使用与所述问题的状态有关的可观察信息。如果可观察信息唯一地标识状态,并且生成回报和状态转变的过程是固定的并且与历史无关,则所述问题在形式上被分类为马尔可夫决策过程(MDP)。备选地,如果可观察信息未唯一地标识状态,则所述问题是部分可观察马尔可夫决策过程(P0MDP),假如回报和状态转变过程仍是固定的并且与历史无关的话。蒙特卡罗规划方法使用实际域的模拟模型,并根据蒙特卡罗模拟试验估计在给定状态下执行操作的累积回报。此类模拟试验包括一个或多个步骤,每个步骤通常包括模拟以下项:在当前模拟状态下执行操作、生成向新状态的转变,以及生成立即回报(如果适用)。通过模拟策略(即,响应于在模拟试验的当前或先前步骤中观察到的信息而选择可用合法操作之一的方法)执行每个步骤处的操作选择。假设蒙特卡罗模拟试验的结果是非确定的。非确定性可能由非确定的回报或状态转变引起,以及由使用非确定的模拟策略引起。因此,蒙特卡罗模拟试验提供一种在统计上评估通过在模拟域的给定状态下执行给定操作而获得的长期累积预期回报的手段。用于根据蒙特卡罗模拟试验进行规划的许多方法都是本领域公知的。一种最早并且最简单的方法是所谓的“轮换(rollout)算法”(G.Tesauro和G.R.Galperin, “On-linepolicy improvement using Monte-Carlo search (使用蒙特卡罗搜索的在线策略改进)”,Advances in Neural InformationProcessing Systems,第9卷,第 1068-1074页,1997年)。在此方法中,执行多个模拟试验(“轮换”),每个试验从对应于实际域的当前状态的公共初始状态开始。每个试验包括根据抽样策略选择根状态下的合法操作,然后由固定模拟策略执行试验的后续步骤中的操作。针对每个顶级操作维护平均回报统计,并且在所有模拟试验终止时,所述方法返回具有最高平均回报的顶级操作以便在实际域中执行。最近,发布了多种蒙特卡罗规划方法(例如,L.Kocsis和Cs.Szepesvari,“Bandit-based Monte-Carlo Planning (基于匪徒的蒙特卡罗规划)”,欧洲机器学习会议的会议记录,第282-293页,2006年),它们将轮换算法扩展到多个评估级别。即,除了顶级步骤之外,还在试验的后续步骤处计算和维护平均回报统计。这通常通过以下操作完成:维护在试验期间遇到的“节点”集合(即,状态的符号表示,或给定状态下的合法操作)、在每个试验结束时计算总回报,然后根据在试验中获得的总回报更新参与给定试验的节点的平均回报统计。抽样策略(例如,根据多臂匪徒理论(mult1-armed bandit theory)的抽样)不仅用于初始步骤,而且还用于试验的后续步骤。尽管这些方法能够在节点之间具有任意拓扑关系的域中产生有效的序贯规划(例如,具有多个到给定状态的路径以及循环返回先前所遇状态的通用MDP),但这些方法的优选实施例包括以严格树结构组织的节点。由于此原因,所述方法通常称为蒙特卡罗树搜索(MCTS)方法。MCTS方法使用方面的最新进展在诸如计算机围棋之类的实际域中实现有效的运行中(on-the-fly)规划(S.Gelly 和 D.SilverjiiAchievingMaster Level Playin9X9Computer Go (在9 X 9计算机围棋中实现大师级博弈)”,AAAI会议记录,2008年)。在此MCTS方法中,基于模拟游戏而动态生长包含交替操作(父)节点和子节点的树。将MCTS树和与节点关联的数据表示为计算机系统存储器中的数据结构。从涉及序贯游戏移动随机性的随机模拟(例如,在计算机围棋的情况下为对弈模拟),在每个节点处收集智能(例如,基于获胜百分率的评估)。例如,在计算机围棋的情况下,根据试验数量和模拟对弈获胜结果维护每个节点处的统计数据。可以与树的此节点结合地计算和存储关联的回报值。基于从模拟中收集的智能,可以推断玩家移动(决策)的高明策略。图1示出了由计算系统构造的数据结构400,其用于在实例计算机围棋游戏中为一个玩家(例如,白方)计算最佳移动。数据结构400示出了实例计算机围棋游戏的当前状态,并包括父节点405,以及包含由圆表示的操作节点(例如,节点407、410和420)和由正方形表示的后续状态节点(例如,节点405、415、425和430)的交替树结构。操作节点指数据结构400中指定规划代理在父节点状态下执行的至少一个后续操作的节点。例如,节点410可以表示白方在根状态下在E5处落子的操作,而节点407可以表示白方在根状态下在F6处落子的操作。后续状态节点指示对规划代理操作的可能环境响应,例如,响应于白方的特定移动,黑方可以做出的可能移动。例如,节点425表示对W-E5的响应B-D7,节点430表示对W-E5的响应B-E3。在所述数据结构中,标准MCTS规划方法针对每个顶级操作执行多个试验。试验包括一系列模拟步骤,每个步骤包括从可用操作中选择操作节点,并模拟导致后续状态的环境的响应。试验的初始步骤中的选定操作通常由匪徒抽样策略来选择。如果试验选择先前未被抽样的操作,则将向所述数据结构中添加对应于此操作的新节点,并且试验的步骤将继续,从而利用非确定的“对弈”策略为两个玩家选择移动。试验的步骤将一直继续,直到所模拟的游戏根据围棋规则而终止。作为根据MCTS方法的模拟操作的结果,在每个操作节点处维护的数据包括模拟试验总数(包括给定操作节点),以及导致获胜结果的试验数。例如,节点410包含数据记录“3/7”,其指示执行了总计7个试验(包括此节点),其中3个试验导致白方获胜。在完成试验之后,MCTS方法执行更新,其中使用游戏结果更新参与试验的节点的统计,即,在树的连续级别向上传播模拟试验的结果。根据任何给定节点的平均获胜率(B卩,获胜数与试验总数(包括该给定节点)的比率)估计该节点的值。在决策周期中执行模拟试验期间,根据平均获胜率选择操作可导致获得更有利结果的更大可能性。例如,在节点405 (表示游戏的当前状态的根节点),估计每个子操作节点的预期回报(例如,对于图1中的节点407,值为1/5,对于节点410,值为3/7)。基于所观察到的统计,选择操作410将比操作407更可能获胜。实际上,在MCTS中使用的匪徒抽样算法以平衡利用(获得高获胜率)和探索(使用很少的试验对节点抽样本文档来自技高网...

【技术保护点】
一种用于选择规划问题状态下的操作的方法,所述方法包括:在所述规划问题状态的模拟模型中运行多个模拟试验,所述模拟试验包含在所述状态下导致模拟回报结果的至少一个可用顶级操作;响应于在所述模拟试验中获得的所述模拟回报结果,在完成所述模拟试验时推荐要在所述规划问题状态下执行的操作,其中所述模拟试验中的至少一个模拟试验执行一个或多个步骤,所述步骤包括:观察模拟状态下的上下文状态信息;以及响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作;其中包括至少一个处理器和连接到所述处理器的至少一个存储设备的计算系统执行所述运行、推荐、观察和选择。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:G·J·泰绍罗A·贝格尔兹莫R·B·塞加尔M·N·韦格曼
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1