一种基于反事实基线的无人机集群对抗博弈仿真方法技术

技术编号：37635715 阅读：16 留言：0更新日期：2023-05-20 08:55

本发明专利技术提供一种基于反事实基线的无人机集群对抗博弈仿真方法，涉及无人机及强化学习技术领域。该方法首先设定对抗博弈的智能体数和对抗博弈回合数等信息；并初始化每个智能体的动作网络和评估网络参数；然后初始化无人机集群对抗博弈环境，获取环境的初始状态空间以及每个智能体的观察值；计算评估网络输出的损失函数，把评估网络输出误差最小化；最后通过当前动作策略计算每个智能体每个步长的基线；使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数，比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线，更新智能体的动作网络，直至对抗博弈回合数为止。直至对抗博弈回合数为止。直至对抗博弈回合数为止。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于反事实基线的无人机集群对抗博弈仿真方法

[0001]本专利技术涉及无人机及强化学习
，尤其涉及一种基于反事实基线的无人机集群对抗博弈仿真方法。

技术介绍

[0002]无人机集群(Unmanned aerial vehicle,即UAV)是由若干配备多种任务载荷的低成本小型无人机组成的无人化作战系统，通过自主学习共同完成特定作战任务。作为典型的多智能体系统，无人机集群以高智能、难防御、强进攻、低成本、使用灵活等优势使得作战模式发生深刻变革。
[0003]随着无人机智能化水平的提高和集群控制技术的飞速发展，无人机集群对抗智能决策技术将成为未来无人机作战的关键技术，解决多智能体对抗问题的另一种思路是利用强化学习方法。强化学习是一种对目标导向与决策问题进行理解和自动化处理的计算方法，它常用马尔可夫决策过程建立数学模型，已在解决复杂环境下智能决策方面体现出不俗能力和良好发展态势，强化学习强调智能体通过与环境的直接交互来学习，而不需要可仿效的监督信号或对周围环境的完全建模，因此在解决长时间持续性复杂对抗任务时具有一定优势。相对于单智能体强化学习，多智能体强化学习具有更高的复杂度：一方面随着智能体数量的增加，相应的策略空间呈指数级增加，其难度远超围棋等棋类游戏；另一方面随着异构智能体的加入，多智能体间的通信、协作和配合变得更加重要。
[0004]深度强化学习(Deep reinforcement learning,即DRL)是近年来强化学习的一个发展迅速的新兴方向，它利用深度神经网络拟合难以学习的价值...

【技术保护点】

【技术特征摘要】
1.一种基于反事实基线的无人机集群对抗博弈仿真方法，其特征在于：包括以下步骤：步骤1、设定作战数据回放缓冲区D、对抗博弈的智能体数N和对抗博弈回合数M以及每回合对抗博弈双方最大交互长度T；初始化每个智能体的动作网络参数ω和评估网络参数θ，一个评估网络对应一个目标评估网络，将评估网络的网络参数复制给目标网络；设定回放缓冲区D用来保存临时作战数据，用来更新动作网络和评估网络；步骤2、初始化无人机集群对抗博弈环境，获取环境的初始状态空间S以及每个智能体的观察值O；每一个智能体根据自己的动作网络执行动作将所有无人机的执行动作联合得到无人机集群的联合动作a
t
＝(a
1,t
,a
2,t
,
…
,a
N,t
)，通过联合动作a
t
与对抗博弈环境交互；并从对抗博弈环境中获取整个无人机集群下一时刻的观测状态o
t+1
和奖励r
t+1
，同时将交互经验即对战数据存储到回放缓冲区D中；步骤3、随机从回放缓冲区D中采样一些数据，这些数据必须是不同的回合中的相同无人机对应数据；计算评估网络输出的损失函数，并采用梯度下降方法，把评估网络输出误差最小化；步骤4、通过当前动作策略计算每个智能体每个步长的基线B；步骤5、使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数，比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线，更新智能体的动作网络；将更新的动作网络参数保存，并迭代更新，达到对抗博弈回合数M为止，终止退出。2.根据权利要求1所述的一种基于反事实基线的无人机集群对抗博弈仿真方法，其特征在于：所述步骤2的具体方法为：步骤2.1：无人机执行各个动作的概率P(u)由动作网络最终层z输出，选取智能体状态对应动作作为智能体的动作策略π，智能体状态对应动作由ε
‑
greedy策略选取，如下公式所示：其中，a为智能体采取的最优动作，A为动作集合，A
*
为评估网络输出的最大Q值对应的动作，π(a|S
t
)为智能体在状态S
t
下对应的动作，ε为概率值，ε
‑
greedy策略以概率ε均匀选择所有动作，以概率1
‑
ε选择最优动作；步骤2.2：将每局对战数据加入回放缓冲区D中，每一局对战数据包括下面信息：其中，s
t
为当前智能体状态，为当前智能体观测状态，n为智能体的编号，a
i
为第i个智能体的动作，为智能体联合动作，r
t
为环境反馈即时奖励。3.根据权利要求2所述的一种基于反事实基线的无人机集群对抗...

【专利技术属性】
技术研发人员：王尔申，宏晨，刘帆，蔚保国，徐嵩，何成龙，陈昌龙，曲萍萍，别玉霞，庞涛，
申请(专利权)人：沈阳航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人