基于先验知识超图学习的合作型多智能体强化学习方法技术

技术编号:40957231 阅读:34 留言:0更新日期:2024-04-18 20:34
本发明专利技术涉及一种基于先验知识超图学习的合作型多智能体强化学习方法,属于多智能体强化学习领域。该方法通过设计的规则,将知识规则与时序差分误差相结合,以指导超图结构的学习过程。这种创新性的方法使得智能体之间的群组合作关系得到有效表示,为多智能体深度强化学习提供了一种全新的视角和解决方案。通过利用先验知识和时序差分学习超图结构表示的智能体合作关系,本发明专利技术提高了多智能体深度强化学习的合作效率。

【技术实现步骤摘要】

本专利技术涉合作型多智能体强化学习,具体涉及一种基于先验知识超图学习的合作型多智能体强化学习方法


技术介绍

1、合作型可部分观测的多智能体强化学习可以被建模为分散式部分可观测决策过程(decentralized partially observable decision processes,简称dec-pomdps)。dec-pomdps中智能体与环境的交互过程可用表示。具体来说,每个时间步t,智能体αi,i∈{1,2,3,…,n}根据其局部观测信息选择个体动作并组成联合动作作用于环境中。环境状态根据状态转移函数转移到新状态并给予智能体奖励所有智能体共享奖励函数r(s,u),即得到相同奖励值。智能体随后通过观测函数获得新的局部观测并不断重复上述过程。dec-pomdps的最终目标是令智能体的决策最大化累计折扣奖励的期望值,即最大化其中γ∈[0,1)为折扣因子,τ为动作观测历史。

2、通常情况下,合作型多智能体强化学习的环境将根据智能体的联合动作给予智能体反馈,即所有智能体共享同一个奖励函数,因此准确评估单个智能体的动作决策对团队的贡献是训练阶本文档来自技高网...

【技术保护点】

1.基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,步骤如下:

2.如权利要求1所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1具体操作如下:

3.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤2具体操作如下:

4.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤3具体操作如下:

5.如权利要求3所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤3具体操作如下:

...

【技术特征摘要】

1.基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,步骤如下:

2.如权利要求1所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤1具体操作如下:

3.如权利要求1或2所述的基于先验知识超图学习的合作型多智能体强化学习方法,其特征在于,所述的步骤2具体操作如下:

4.如权利要求1或2所述的基于先验知识超图学习的合作型多智...

【专利技术属性】
技术研发人员:伍晓倩刘倩谭国真
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1