【技术实现步骤摘要】
面向群智夺旗博弈的深度强化学习方法和系统
[0001]本专利技术涉及群智夺旗博弈策略端到端求解方法和系统,具体涉及多智能体深度强化学习路径规划与图注意力网络量化博弈竞合关系。
技术介绍
[0002]博弈是参与者在合作或竞争行为下的策略优化过程。将博弈论引入多智能体系统时,凭借传感器模块、智能穿戴设备等基本感知单元的广泛使用,通过互联网协同,实现了多智能体系统中的数据高效收集和任务协同规划,使得完成复杂战场环境下的群智攻防任务成为可能。在此背景下,通过构建并求解博弈模型,提升强对抗、高动态战场环境下智能体精准攻击与防御的成功率。
[0003]攻防博弈问题可被建模为夺旗博弈模型,其中攻击方实现对防守方目标的夺取,而防守方则试图摧毁攻击方以阻止袭击。当博弈是低维时,现有文献(例如,Huang H,Ding J,Zhang W,et al.Automation
‑
assisted capture
‑
the
‑
flag:A differential game approac ...
【技术保护点】
【技术特征摘要】
1.一种面向群智夺旗博弈的深度强化学习方法,其特征在于,方法包括:步骤1:将复杂战场环境抽象为包括多个智能体在内的二维迷宫仿真环境;步骤2:基于卷积神经网络分通道提取输入图像的视觉特征;步骤3:使用强化学习双重决斗深度Q网络分别为分队的智能体初始化对应的网络;步骤4:根据群智夺旗任务目标构造奖励函数,根据由战场环境抽象出的夺旗规则,设置需要达到的目标;步骤5:在双重决斗深度Q网络结构中加入图注意力网络;步骤6:设置最大迭代轮次;步骤7:根据智能体在该时刻的观测信息和与队友间的通讯信息,计算每一步各智能体间的注意力值,智能体根据注意力值选择偏向进攻/防守的动作;步骤8:根据选取的奖励函数执行动作,获取经验回放四元组;步骤9:获取新的环境部分观测,更新经验回放四元组,计算双重决斗深度Q网络目标值;步骤10:反复执行步骤7
‑
9,更新双重决斗深度Q网络,直至迭代次数达到最大迭代次数,实现迷宫环境下的群智夺旗博弈。2.根据权利要求1所述的面向群智夺旗博弈的深度强化学习方法,其特征在于,步骤1进一步包括:定义N个智能体,其中包含一组局部观测一组动作和一组状态S和状态转移函数对于每个智能体i,通过基本感知单元得到的局部观测3.根据权利要求1所述的面向群智夺旗博弈的深度强化学习方法,其特征在于,步骤2进一步包括:在卷积神经网络后增加残差网络模块,将前后连接的卷积神经网络和残差网络模块的特征连接在一起,用于减少过拟合。4.根据权利要求1所述的面向群智夺旗博弈的深度强化学习方法,其特征在于,步骤4进一步包括:需要达到的目标为:我方智能体在不被敌方智能体击杀的条件下,夺取敌方的旗帜。5.一种面向群智夺旗博弈的深度强化学习系统,其特征在于,系统包括:仿真模块,配置为将复杂战场环境抽象...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。