【技术实现步骤摘要】
本专利技术涉及一种贯序决策模型的求解方法,尤其涉及一种针对部分可观察马尔可 夫决策过程的近似算法的加速方法。
技术介绍
在传统的多Agent系统策略问题中,Agent往往是在完全可观察的环境下行动, 这导致了许多技术都不适合于实际的应用场景。部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Processes,简称POMDP)为不确定环境下的序贯 决策问题提供了一个丰富的框架.在POMDP中,系统的状态和决策动作的影响都是不 确定的,仅仅可以获得对隐蔽状态的观察,它与状态满足一定的条件概率,POMDP自从被提出以来,在人工智能和控制研究领域受到广泛关注,并且许多精 确算法随之被提出。它们都是在整个信念空间上最优化值函数,然而这些算法在运算 中都将陷入众所周知的维度和历史问题。根据两点事实可以用大量的离散信念点来近似整个连续的信念单形体;可以用 生成一系列上界来取代精确的值迭代,基于点的算法被提了出来。具有代表性的有 PBVI和Perseus算法,它们只在一个信念点集上进行Backup操作,避免了线性规划并 ...
【技术保护点】
一种基于点的部分可观察马尔可夫决策过程的预处理方法,其特征在于该方法包括如下步骤: (1)、迭代之前的预处理: (a)、通过与环境的随机交互来采样点集。其中动作和观察根据实验数据的概率随机获取。当Agent执行动作a并得到观察z时,信念状态将根据如下公式由b更新至b′: b′(s′)=b↓[a]↑[z](s′)=Pr(s′|b,a,z)=O(a,s′,z)∑↓[s∈S]b(s)T(s,a,s′)/Pr(z/a,b) 其中,T(s,a,s′)、O(a,s′,z)分别表示状态转换函数和观察函数,Pr(z|a,b)为正规化因子,b↓[a]↑[z]为新的信念点。 (b)、计算并存储 ...
【技术特征摘要】
1、一种基于点的部分可观察马尔可夫决策过程的预处理方法,其特征在于该方法包括如下步骤(1)、迭代之前的预处理(a)、通过与环境的随机交互来采样点集。其中动作和观察根据实验数据的概率随机获取。当Agent执行动作a并得到观察z时,信念状态将根据如下公式由b更新至b′其中,T(s,a,s′)、O(a,s′,z)分别表示状态转换函数和观察函数,Pr(z|a,b)为正规化因子,为新的信念点。(b)、计算并存储采样点的奖赏函数。针对每个采样点b的每个动作a,计算并存储采样点的奖赏函数R(b,a)=∑s∈Sb(s)R(s,a)其中,R(b,a)、R(s,a)分别表示在信念点和单个状态的奖赏函数。(c)、计算并存储伪继承点。针对每个采样点b的每个动作a及每个观察z,计算并存储非零伪继承点(β-向量)其中,为β-向量。(d)、结束。(2)、每步迭代的预处理(e)、计算并存储基向量。这是每次迭代之前的预处理,...
【专利技术属性】
技术研发人员:王崇骏,卞爱华,吴骏,赵志宏,
申请(专利权)人:南京大学,
类型:发明
国别省市:84[中国|南京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。