当前位置: 首页 > 专利查询>南京大学专利>正文

基于点的部分可观察马尔可夫决策过程的预处理方法技术

技术编号:4285537 阅读:306 留言:0更新日期:2012-04-11 18:40
本发明专利技术的基于点的部分可观察马尔可夫决策过程的预处理方法,包括如下步骤:1.迭代之前的预处理:a.通过与环境的随机交互来采样点集;b.计算并存储采样点的奖赏函数;c.计算并存储伪继承点;d.结束;2.每步迭代的预处理:e.计算并存储基向量;f.结束;3.单点单步迭代:g.计算每个采样点的奖赏值表和候选向量表;h.计算最优动作并获取基向量;i.用误差项修正基向量;j、结束。本发明专利技术的基于点的部分可观察马尔可夫决策过程的预处理方法对每个样本信念点作预处理,而且提出了基向量的概念,避免了大量重复和无意义计算,将算法速度提升了2~4倍。

【技术实现步骤摘要】

本专利技术涉及一种贯序决策模型的求解方法,尤其涉及一种针对部分可观察马尔可 夫决策过程的近似算法的加速方法。
技术介绍
在传统的多Agent系统策略问题中,Agent往往是在完全可观察的环境下行动, 这导致了许多技术都不适合于实际的应用场景。部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Processes,简称POMDP)为不确定环境下的序贯 决策问题提供了一个丰富的框架.在POMDP中,系统的状态和决策动作的影响都是不 确定的,仅仅可以获得对隐蔽状态的观察,它与状态满足一定的条件概率,POMDP自从被提出以来,在人工智能和控制研究领域受到广泛关注,并且许多精 确算法随之被提出。它们都是在整个信念空间上最优化值函数,然而这些算法在运算 中都将陷入众所周知的维度和历史问题。根据两点事实可以用大量的离散信念点来近似整个连续的信念单形体;可以用 生成一系列上界来取代精确的值迭代,基于点的算法被提了出来。具有代表性的有 PBVI和Perseus算法,它们只在一个信念点集上进行Backup操作,避免了线性规划并 使用了更少的中间变量本文档来自技高网...

【技术保护点】
一种基于点的部分可观察马尔可夫决策过程的预处理方法,其特征在于该方法包括如下步骤: (1)、迭代之前的预处理: (a)、通过与环境的随机交互来采样点集。其中动作和观察根据实验数据的概率随机获取。当Agent执行动作a并得到观察z时,信念状态将根据如下公式由b更新至b′: b′(s′)=b↓[a]↑[z](s′)=Pr(s′|b,a,z)=O(a,s′,z)∑↓[s∈S]b(s)T(s,a,s′)/Pr(z/a,b) 其中,T(s,a,s′)、O(a,s′,z)分别表示状态转换函数和观察函数,Pr(z|a,b)为正规化因子,b↓[a]↑[z]为新的信念点。 (b)、计算并存储采样点的奖赏函数。针...

【技术特征摘要】
1、一种基于点的部分可观察马尔可夫决策过程的预处理方法,其特征在于该方法包括如下步骤(1)、迭代之前的预处理(a)、通过与环境的随机交互来采样点集。其中动作和观察根据实验数据的概率随机获取。当Agent执行动作a并得到观察z时,信念状态将根据如下公式由b更新至b′其中,T(s,a,s′)、O(a,s′,z)分别表示状态转换函数和观察函数,Pr(z|a,b)为正规化因子,为新的信念点。(b)、计算并存储采样点的奖赏函数。针对每个采样点b的每个动作a,计算并存储采样点的奖赏函数R(b,a)=∑s∈Sb(s)R(s,a)其中,R(b,a)、R(s,a)分别表示在信念点和单个状态的奖赏函数。(c)、计算并存储伪继承点。针对每个采样点b的每个动作a及每个观察z,计算并存储非零伪继承点(β-向量)其中,为β-向量。(d)、结束。(2)、每步迭代的预处理(e)、计算并存储基向量。这是每次迭代之前的预处理,...

【专利技术属性】
技术研发人员:王崇骏卞爱华吴骏赵志宏
申请(专利权)人:南京大学
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1