【技术实现步骤摘要】
本专利技术涉合作型多智能体强化学习,具体涉及一种基于先验知识超图学习的合作型多智能体强化学习方法。
技术介绍
1、合作型可部分观测的多智能体强化学习可以被建模为分散式部分可观测决策过程(decentralized partially observable decision processes,简称dec-pomdps)。dec-pomdps中智能体与环境的交互过程可用表示。具体来说,每个时间步t,智能体αi,i∈{1,2,3,…,n}根据其局部观测信息选择个体动作并组成联合动作作用于环境中。环境状态根据状态转移函数转移到新状态并给予智能体奖励所有智能体共享奖励函数r(s,u),即得到相同奖励值。智能体随后通过观测函数获得新的局部观测并不断重复上述过程。dec-pomdps的最终目标是令智能体的决策最大化累计折扣奖励的期望值,即最大化其中γ∈[0,1)为折扣因子,τ为动作观测历史。
2、通常情况下,合作型多智能体强化学习的环境将根据智能体的联合动作给予智能体反馈,即所有智能体共享同一个奖励函数,因此准确评估单个智能体的动作决策
...【技术保护点】
1.基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,步骤如下:
2.如权利要求1所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1具体操作如下:
3.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤2具体操作如下:
4.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤3具体操作如下:
5.如权利要求3所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤3具体操作
...
【技术特征摘要】
1.基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,步骤如下:
2.如权利要求1所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1具体操作如下:
3.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤2具体操作如下:
4.如权利要求1或2所述的基于先验知识超图学习的合作型多智...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。