一种基于状态动态感知的多智能体合作学习方法技术

技术编号：21548869 阅读：26 留言：0更新日期：2019-07-06 22:01

本发明专利技术公开了一种基于状态动态感知的多智能体合作学习方法，通过自主训练获得协调完成任务目标的多智能体控制系统，步骤如下：对各个智能体分别进行状态编码；对每个智能体构建一个动态感知层对其状态集合进行处理，将动态长度的状态集合映射成固定长度的特征；每个智能体的特征输入到各自带有通信单元的Q值网络，从网络输出中选取具有最大Q值的动作作为决策动作；各智能体将动作执行于环境，从环境中获取反馈奖励后，对所有智能体的动态感知层参数和Q值网络参数进行更新；使用上述框架训练多智能体，获得多智能体合作控制系统。本发明专利技术适用于要求动态数量游戏角色合作完成任务的游戏系统中，可作为游戏中多智能体的人工智能系统。

A Multi-Agent Cooperative Learning Method Based on Dynamic State Perception

全部详细技术资料下载

【技术实现步骤摘要】
一种基于状态动态感知的多智能体合作学习方法
本专利技术涉及多智能体强化学习
，具体涉及一种基于状态动态感知的多智能体合作学习方法。
技术介绍
多智能体系统是由多个可计算的智能体组成的集合，通过协调具有自主能力的智能体，协同地完成一系列系统动作从而达到预定目标。多智能体系统广泛存在于现实生产生活中，如仓库机器人、工业组装机器人、网络自动化与智能化及分布式智能决策等。特别是在游戏中，多个游戏角色进行合作完成任务目标的情况非常普遍，游戏角色的人工智能系统也极大地影响游戏产品的质量。多智能体强化学习方法在游戏产品中的应用，一方面可以减少人工对人工智能代码的编写，提高游戏的开发效率；另一方面多智能体强化学习具有自学习的特点，能够根据游戏任务目标不断学习提高自身能力，具有较强的鲁棒性。针对多智能体强化学习在游戏中的应用，目前提出的方法主要研究有以下三个方面。第一点是学习框架的研究，即采用集中式的多智能体学习框架，和采用分布式的多智能体学习框架。前者框架简单，但计算量大且集中，后者则通过分布式的计算方式提高计算效率。第二点是信度分配问题，即研究多智能体合作时的各智能体对整体目标的贡献度。第三点是多智能体间的通讯，主要是在分布式多智能体中，各智能体感知信息受限，如何通过学习有效的通信协议，以提高多智能体间的合作能力从而提高整体对目标的贡献。上述的研究对多智能体强化学习在游戏中的应用起到了极大的推动作用。但游戏中的多智能体具有数量变化快的特点。在多智能体参与任务过程中，由于血量和道具等的使用，可以使智能体脱离任务或参与到新任务中；由于智能体的感知域有限，单个智能体空间...

【技术保护点】
1.一种基于状态动态感知的多智能体合作学习方法，其特征在于，所述的多智能体合作学习方法包括以下步骤：S1、对各个智能体分别进行状态编码，使每一个智能体形成具有动态长度的状态集合；S2、对每个智能体，构建一个动态感知层对其状态集合进行处理，将动态长度的状态集合映射成为固定长度的特征；S3、每个智能体的特征输入到各自带有通信单元的Q值网络，从Q值网络输出中选取具有最大Q值的动作作为决策动作；S4、各智能体将动作执行于环境，从环境中获取反馈奖励后，对所有智能体的动态感知层参数和Q值网络参数进行更新；S5、使用上述框架训练多智能体，从而获得具有完成既定任务目标的多智能体合作控制系统。

【技术特征摘要】
1.一种基于状态动态感知的多智能体合作学习方法，其特征在于，所述的多智能体合作学习方法包括以下步骤：S1、对各个智能体分别进行状态编码，使每一个智能体形成具有动态长度的状态集合；S2、对每个智能体，构建一个动态感知层对其状态集合进行处理，将动态长度的状态集合映射成为固定长度的特征；S3、每个智能体的特征输入到各自带有通信单元的Q值网络，从Q值网络输出中选取具有最大Q值的动作作为决策动作；S4、各智能体将动作执行于环境，从环境中获取反馈奖励后，对所有智能体的动态感知层参数和Q值网络参数进行更新；S5、使用上述框架训练多智能体，从而获得具有完成既定任务目标的多智能体合作控制系统。2.根据权利要求1所述的一种基于状态动态感知的多智能体合作学习方法，其特征在于，所述的状态编码是对系统中单一实体的状态进行离散化或one-hot编码操作，形成其状态向量，包含有n个智能体的系统中，在某一个时间步t，对于智能体i，所述的状态集合由当前选择的智能体状态环境状态及其它智能体状态三部分组成，即各部分含义如下：1)智能体状态向量由智能体i在时间步t的状态经过状态编码后形成的状态向量；2)环境状态由该智能体i在时间步t感知到的m个环境实体经过状态编码后，将状态向量拼接组成矩阵此处环境实体指在系统中无法控制的实体，指智能体i在时间步t感知范围内的第k个环境实体的状态向量；3)其它智能体状态由该智能体i感知到的l个其它智能体经过状态编码后，将状态向量拼接组成矩阵此处其它智能体指在系统中受控制的实体，指智能体i在时间步t感知范围内的第k个其它智能体的状态向量。3.根据权利要求2所述的一种基于状态动态感知的多智能体合作学习方法，其特征在于，所述的环境状态的长度m和所述的其它智能体状态的长度l随着智能体i时空的变化发生变化。4.根据权利要求2所述的一种基于状态动态感知的多智能体合作学习方法，其特征在于，所述的步骤S2中为每一个智能体构建一个动态感知层，所有智能体动态感知层的参数共享，所述的动态感知层包括k个感知核，每个感知核包含映射单元和注意力单元，对于智能体i，在时间步t，每个感知核对状态集合的处理过程分解为以下步骤：S21、使用映射单元的权值矩阵与输入的状态进行以...

【专利技术属性】
技术研发人员：王桂鸿，史景伦，邓丽，张宇，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人