使用上下文信息进行蒙特卡罗规划的方法和系统技术方案

技术编号：8934668 阅读：169 留言：0更新日期：2013-07-18 03:16

本发明专利技术涉及一种使用上下文信息进行蒙特卡罗规划的方法和系统。提供了用于选择规划问题状态下的操作的方法、系统和计算机程序产品。所述系统从所述规划问题的当前状态开始模拟一个或多个系列的操作、状态转变和回报。在模拟在给定状态下执行给定操作期间，维护包括由所述操作产生的所观察的上下文状态信息和所观察的累积回报的数据记录。所述系统针对所述数据记录执行回归拟合，从而能够根据上下文状态估计预期回报。所述预期回报的估计用于在所述模拟期间指导操作的选择。在完成所有模拟时，推荐在模拟期间获得最高平均回报的顶级操作，以便在所述规划问题的当前状态下执行。

全部详细技术资料下载

【技术实现步骤摘要】

本公开一般地涉及用于例如在实际域中进行规划和序贯决策(sequentialdecision making)的系统和方法。更具体地说，本申请涉及使用可观察状态信息的创新性分解通过蒙特卡罗模拟试验进行规划，所述信息分解能够比使用既定的最新方法处理更大的状态空间。
技术介绍
规划问题(也称为序贯决策问题)通常由以下项来表征:所述问题的一组可能状态、可以在每个状态下执行的一组可允许的操作、用于在给定当前状态和当前选定操作下生成向后续状态的转变的过程、规划周期(即，在所述问题中要进行的总预期决策数量)，以及在所述规划问题的一个或多个步骤处获得的效用或回报的度量。通常，目标是计算一系列最大化预期累积折扣或未折扣回报的决策。此外，规划问题假设可在序列中的每个步骤处使用与所述问题的状态有关的可观察信息。如果可观察信息唯一地标识状态，并且生成回报和状态转变的过程是固定的并且与历史无关，则所述问题在形式上被分类为马尔可夫决策过程(MDP)。备选地，如果可观察信息未唯一地标识状态，则所述问题是部分可观察马尔可夫决策过程(P0MDP)，假如回报和状态转变过程仍是固定的并且与历史无关的话。蒙特卡罗规划方法使用实际域的模拟模型，并根据蒙特卡罗模拟试验估计在给定状态下执行操作的累积回报。此类模拟试验包括一个或多个步骤，每个步骤通常包括模拟以下项:在当前模拟状态下执行操作、生成向新状态的转变，以及生成立即回报(如果适用)。通过模拟策略(即，响应于在模拟试验的当前或先前步骤中观察到的信息而选择可用合法操作之一的方法)执行每个步骤处的操作选择。假设蒙特卡罗模拟试验的结果是非确定的。非确定性...

【技术保护点】
一种用于选择规划问题状态下的操作的方法，所述方法包括：在所述规划问题状态的模拟模型中运行多个模拟试验，所述模拟试验包含在所述状态下导致模拟回报结果的至少一个可用顶级操作；响应于在所述模拟试验中获得的所述模拟回报结果，在完成所述模拟试验时推荐要在所述规划问题状态下执行的操作，其中所述模拟试验中的至少一个模拟试验执行一个或多个步骤，所述步骤包括：观察模拟状态下的上下文状态信息；以及响应于所观察的上下文状态信息而选择所述模拟状态下的可用操作；其中包括至少一个处理器和连接到所述处理器的至少一个存储设备的计算系统执行所述运行、推荐、观察和选择。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：G·J·泰绍罗，A·贝格尔兹莫，R·B·塞加尔，M·N·韦格曼，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人