【技术实现步骤摘要】
本专利技术涉及多智能体系统,具体涉及一种基于双层图注意力强化学习的多智能体围捕方法。
技术介绍
1、多智能体围捕是多智能体协作领域一个经典但具有挑战性的问题,在民用和军事中被广泛使用。例如,航空航天中的合作拦截,多机器人的合作搜索和救援。多智能体围捕任务中,追捕者和猎物处在动态变化的环境中,追捕者之间协作形成预期编队包围特定的猎物,形成包围圈,将猎物围捕,而且要避免智能体之间的碰撞以及和障碍物的碰撞,而猎物则要尽可能的学会逃跑。智能体之间有着错综复杂的关系,随着任务规模的逐渐扩大,智能体需要在大量冗余的变化的环境信息中快速提取出关键信息,动态调整自己的目标,学习有效的合作策略,并能够将训练学习的策略适配大规模的复杂新任务,是多智能体围捕任务的关键挑战。
2、目前的多智能体围捕问题研究主要分为两种,基于控制理论的方法和基于学习的方法。基于控制理论的方法,往往是通过估计所有猎物的中心位置其视为一个整体目标来求解。之后的工作大多集中在任务分配和包围控制两个方面,即对追捕者进行分组,然后再规划每组追捕者对对应的猎物进行合作围捕。但是
...【技术保护点】
1.一种基于双层图注意力强化学习的多智能体围捕方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述预先训练的基于双层图注意力的强化学习模型的获取过程包括:
3.如权利要求2所述的方法,其特征在于,所述基于双层图注意力的强化学习模型包括:观测编码器网络、图注意力网络和Q网络;
4.如权利要求2所述的方法,其特征在于,所述采用SAC算法作为基础算法在多智能体围捕任务仿真场景中对各智能体对应的基于双层图注意力的强化学习模型进行训练的过程中,设有基于双层图注意力的强化学习模型的追捕者智能体的奖励函数为:
【技术特征摘要】
1.一种基于双层图注意力强化学习的多智能体围捕方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述预先训练的基于双层图注意力的强化学习模型的获取过程包括:
3.如权利要求2所述的方法,其特征在于,所述基于双层图注意力的强化学习模型包括:观测编码器网络、图注意力网络和q网络;
4.如权利要求2所述的方法,其特征在于,所述采用sac算法作为基础算法在多智能体围捕任务仿真场景中对各智能体对应的基于双层图注意力的强化学习模型进行训练的过程中,设有基于双层图注意力的强化学习模型的追捕者智能体的奖励函数为:
5.如权利要求4所述的方...
【专利技术属性】
技术研发人员:史殿习,李彤月,郝锋,王震,张轶,邱春平,
申请(专利权)人:中国人民解放军三二八零六部队,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。