基于点的部分可观察马尔可夫决策过程的预处理方法技术

技术编号：4285537 阅读：306 留言：0更新日期：2012-04-11 18:40

本发明专利技术的基于点的部分可观察马尔可夫决策过程的预处理方法，包括如下步骤：１．迭代之前的预处理：ａ．通过与环境的随机交互来采样点集；ｂ．计算并存储采样点的奖赏函数；ｃ．计算并存储伪继承点；ｄ．结束；２．每步迭代的预处理：ｅ．计算并存储基向量；ｆ．结束；３．单点单步迭代：ｇ．计算每个采样点的奖赏值表和候选向量表；ｈ．计算最优动作并获取基向量；ｉ．用误差项修正基向量；ｊ、结束。本发明专利技术的基于点的部分可观察马尔可夫决策过程的预处理方法对每个样本信念点作预处理，而且提出了基向量的概念，避免了大量重复和无意义计算，将算法速度提升了２～４倍。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种贯序决策模型的求解方法，尤其涉及一种针对部分可观察马尔可夫决策过程的近似算法的加速方法。
技术介绍
在传统的多Agent系统策略问题中，Agent往往是在完全可观察的环境下行动，这导致了许多技术都不适合于实际的应用场景。部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Processes,简称POMDP)为不确定环境下的序贯决策问题提供了一个丰富的框架.在POMDP中，系统的状态和决策动作的影响都是不确定的，仅仅可以获得对隐蔽状态的观察,它与状态满足一定的条件概率，POMDP自从被提出以来,在人工智能和控制研究领域受到广泛关注，并且许多精确算法随之被提出。它们都是在整个信念空间上最优化值函数，然而这些算法在运算中都将陷入众所周知的维度和历史问题。根据两点事实可以用大量的离散信念点来近似整个连续的信念单形体；可以用生成一系列上界来取代精确的值迭代，基于点的算法被提了出来。具有代表性的有 PBVI和Perseus算法，它们只在一个信念点集上进行Backup操作,避免了线性规划并 ...

【技术保护点】
一种基于点的部分可观察马尔可夫决策过程的预处理方法，其特征在于该方法包括如下步骤：　（１）、迭代之前的预处理：　（ａ）、通过与环境的随机交互来采样点集。其中动作和观察根据实验数据的概率随机获取。当Ａｇｅｎｔ执行动作ａ并得到观察ｚ时，信念状态将根据如下公式由ｂ更新至ｂ′：　ｂ′（ｓ′）＝ｂ↓［ａ］↑［ｚ］（ｓ′）＝Ｐｒ（ｓ′｜ｂ，ａ，ｚ）＝Ｏ（ａ，ｓ′，ｚ）∑↓［ｓ∈Ｓ］ｂ（ｓ）Ｔ（ｓ，ａ，ｓ′）／Ｐｒ（ｚ／ａ，ｂ）　其中，Ｔ（ｓ，ａ，ｓ′）、Ｏ（ａ，ｓ′，ｚ）分别表示状态转换函数和观察函数，Ｐｒ（ｚ｜ａ，ｂ）为正规化因子，ｂ↓［ａ］↑［ｚ］为新的信念点。　（ｂ）、计算并存储采样点的奖赏函数。针...

【技术特征摘要】
1、一种基于点的部分可观察马尔可夫决策过程的预处理方法，其特征在于该方法包括如下步骤(1)、迭代之前的预处理(a)、通过与环境的随机交互来采样点集。其中动作和观察根据实验数据的概率随机获取。当Agent执行动作a并得到观察z时，信念状态将根据如下公式由b更新至b′其中，T(s，a，s′)、O(a，s′，z)分别表示状态转换函数和观察函数，Pr(z|a，b)为正规化因子，为新的信念点。(b)、计算并存储采样点的奖赏函数。针对每个采样点b的每个动作a，计算并存储采样点的奖赏函数R(b，a)＝∑s∈Sb(s)R(s，a)其中，R(b，a)、R(s，a)分别表示在信念点和单个状态的奖赏函数。(c)、计算并存储伪继承点。针对每个采样点b的每个动作a及每个观察z，计算并存储非零伪继承点(β-向量)其中，为β-向量。(d)、结束。(2)、每步迭代的预处理(e)、计算并存储基向量。这是每次迭代之前的预处理，...

【专利技术属性】
技术研发人员：王崇骏，卞爱华，吴骏，赵志宏，
申请(专利权)人：南京大学，
类型：发明
国别省市：84[中国|南京]

全部详细技术资料下载我是这个专利的主人