当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于智能规划的多智能体强化学习方法技术

技术编号:39036600 阅读:28 留言:0更新日期:2023-10-10 11:49
本发明专利技术公开了一种基于智能规划的多智能体强化学习方法,包括基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,基于模型对偶关系构建统一模型;将多智能体强化学习算法模型的训练任务表示为规划任务描述;基于规划任务描述,依次执行翻译、编译、启发式搜索这三大步骤,进而得到最优动作序列;将最优动作序列转化为各智能体的高层目标,将高层目标与环境中的观察值拼接后输入多智能体强化学习算法模型经过学习得到底层精密动作,环境执行后产生经验元组并将其存至缓冲区中;启发式搜索过程中,根据当前智能体的所处状态实时计算并更新动作执行代价值。该方法大大提升了算法模型的决策准确性以及训练效率。以及训练效率。以及训练效率。

【技术实现步骤摘要】
一种基于智能规划的多智能体强化学习方法


[0001]本专利技术属于智能规划和多智能体强化学习的
,具体涉及一种基于智能规划的多智能体强化学习方法。

技术介绍

[0002]深度强化学习(Deep Reinforcement Learning,DRL)近年来取得了突破性的成果,出现了大量与之相关的算法和应用,例如:在街机游戏雅达利Atari中,通过不断地训练和更新策略,深度强化学习算法最终获得了远超人类专家的得分表现;在围棋领域中,由DeepMind推出的AlphaGo和AlphaGo Zero成功击败了世界顶尖棋手李世乭和柯洁;在无人驾驶研究中,DRL实现了对方向和速度的控制以及对障碍的规避。
[0003]最近的很多研究已经不仅仅局限于单智能体强化学习,在更为复杂的训练任务中,智能体的数量往往不止一个,智能体之间会存在合作、竞争或者混合合作竞争的关系。因此也有更多研究人员关注于多智能体场景下的深度强化学习,使得深度强化学习在多智能体即时战略对抗环境Dota2和StarCraft II中取得了不错的成果。通过训练深度神经网络来学习多智本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于智能规划的多智能体强化学习方法,其特征在于,包括以下步骤:为多玩家参与的即时战略对抗游戏构建多智能体强化学习算法模型;基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,基于模型对偶关系构建统一模型;基于统一模型将多智能体强化学习算法模型的训练任务表示为规划任务描述;将规划任务描述翻译为多值规划任务,并对多值规划任务进行编译得到多种数据结构,基于多种数据结构执行启发式搜索得到最优动作序列;将最优动作序列转化为各智能体的高层目标,将高层目标与环境中的观察值拼接后输入多智能体强化学习算法模型经过学习得到底层精密动作,环境迭代执行后产生经验元组并将其存至缓冲区中;启发式搜索过程中,根据当前智能体的所处状态实时计算并更新搜索过程中的动作执行代价值。2.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,为多玩家参与的即时战略对抗游戏构建多智能体强化学习算法模型,包括:将每个玩家看作一个智能体,将即时战略对抗环境看作智能体的所处环境,以形成多智能体强化学习算法模型。3.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,所述基于多智能体强化学习算法模型和智能规划模型的相似性,建立两者之间的模型对偶关系,包括:所述模型对偶关系包括模型定义对偶关系,基于模型定义上的各元素的对应关系,建立模型定义对偶关系;所述模型对偶关系还包括模型目标对偶关系,将强化学习中最大化累计奖励值的求解目标转化为智能规划中最小化累计代价值的规划目标,以建立模型目标对偶关系。4.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,所述基于模型对偶关系构建统一模型,包括:通过定义各对象的状态空间以及持续执行的动作,协调各智能体之间的相互关系,通过创建代价处理器,将多智能体强化学习中的奖励值或动作状态价值转化为智能规划中的代价值,搭建起模型之间的连接桥梁,形成统一模型。5.根据权利要求1所述的基于智能规划的多智能体强化学习方法,其特征在于,所述基于统一模型将多智能体强化学习算法模型的训练任务表示为规划任务描述,包括:基于统一模型获得各智能体的状态信息和可执行动作集合;所述规划任务描述包括域描述,在域描述中,根据强化学习环境中所涉及的智能体和非智能体的状态信息,完成对规划任务的抽象定义,包括:对象类型、谓词集合、函数集合、动作集合;所述规划任务描述还包括任务描述,在任务描述中,根据强化学习中各智能体的初始状态和一轮游戏的训练目标,构建特定领域下的具体规划问题,包括:对象实例、规划任务的初始状态、规划任务的终止状态。6.根据权利要求5所述的基于智能规划的多智能体强化学习方法,其特征在于,所述将规划任务描述翻译为多值规划任务,包括:在...

【专利技术属性】
技术研发人员:潘纲辛沅霞张犁李石坚
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1