一种基于双层图注意力强化学习的多智能体围捕方法技术

技术编号：41621394 阅读：31 留言：0更新日期：2024-06-13 02:22

本发明专利技术涉及多智能体系统技术领域，具体提供了一种基于双层图注意力强化学习的多智能体围捕方法，包括：步骤S101感知智能体的观测状态信息；步骤S102将所述智能体的观测状态信息作为预先训练的基于双层图注意力的强化学习模型的输入，得到预先训练的基于双层图注意力的强化学习模型输出的动作执行指令；步骤S103基于所述动作执行指令执行相应动作，若围捕成功，则结束操作，否则，返回步骤S101；其中，所述智能体的观测状态信息包括：智能体自身的位置信息和速度信息、其他智能体的位置速度信息、障碍物的位置信息、围捕目标的位置信息和速度信息。本发明专利技术提供的技术方案，能够有效解决多智能体围捕任务中的多目标优化问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体系统，具体涉及一种基于双层图注意力强化学习的多智能体围捕方法。

技术介绍

1、多智能体围捕是多智能体协作领域一个经典但具有挑战性的问题，在民用和军事中被广泛使用。例如，航空航天中的合作拦截，多机器人的合作搜索和救援。多智能体围捕任务中，追捕者和猎物处在动态变化的环境中，追捕者之间协作形成预期编队包围特定的猎物，形成包围圈，将猎物围捕，而且要避免智能体之间的碰撞以及和障碍物的碰撞，而猎物则要尽可能的学会逃跑。智能体之间有着错综复杂的关系，随着任务规模的逐渐扩大，智能体需要在大量冗余的变化的环境信息中快速提取出关键信息，动态调整自己的目标，学习有效的合作策略，并能够将训练学习的策略适配大规模的复杂新任务，是多智能体围捕任务的关键挑战。

2、目前的多智能体围捕问题研究主要分为两种，基于控制理论的方法和基于学习的方法。基于控制理论的方法，往往是通过估计所有猎物的中心位置其视为一个整体目标来求解。之后的工作大多集中在任务分配和包围控制两个方面，即对追捕者进行分组，然后再规划每组追捕者对对应的猎物进行合作围捕。但是...

【技术保护点】

1.一种基于双层图注意力强化学习的多智能体围捕方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述预先训练的基于双层图注意力的强化学习模型的获取过程包括：

3.如权利要求2所述的方法，其特征在于，所述基于双层图注意力的强化学习模型包括：观测编码器网络、图注意力网络和Q网络；

4.如权利要求2所述的方法，其特征在于，所述采用SAC算法作为基础算法在多智能体围捕任务仿真场景中对各智能体对应的基于双层图注意力的强化学习模型进行训练的过程中，设有基于双层图注意力的强化学习模型的追捕者智能体的奖励函数为：