一种基于反事实基线的无人机集群对抗博弈仿真方法技术

技术编号:37635715 阅读:16 留言:0更新日期:2023-05-20 08:55
本发明专利技术提供一种基于反事实基线的无人机集群对抗博弈仿真方法,涉及无人机及强化学习技术领域。该方法首先设定对抗博弈的智能体数和对抗博弈回合数等信息;并初始化每个智能体的动作网络和评估网络参数;然后初始化无人机集群对抗博弈环境,获取环境的初始状态空间以及每个智能体的观察值;计算评估网络输出的损失函数,把评估网络输出误差最小化;最后通过当前动作策略计算每个智能体每个步长的基线;使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数,比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线,更新智能体的动作网络,直至对抗博弈回合数为止。直至对抗博弈回合数为止。直至对抗博弈回合数为止。

【技术实现步骤摘要】
一种基于反事实基线的无人机集群对抗博弈仿真方法


[0001]本专利技术涉及无人机及强化学习
,尤其涉及一种基于反事实基线的无人机集群对抗博弈仿真方法。

技术介绍

[0002]无人机集群(Unmanned aerial vehicle,即UAV)是由若干配备多种任务载荷的低成本小型无人机组成的无人化作战系统,通过自主学习共同完成特定作战任务。作为典型的多智能体系统,无人机集群以高智能、难防御、强进攻、低成本、使用灵活等优势使得作战模式发生深刻变革。
[0003]随着无人机智能化水平的提高和集群控制技术的飞速发展,无人机集群对抗智能决策技术将成为未来无人机作战的关键技术,解决多智能体对抗问题的另一种思路是利用强化学习方法。强化学习是一种对目标导向与决策问题进行理解和自动化处理的计算方法,它常用马尔可夫决策过程建立数学模型,已在解决复杂环境下智能决策方面体现出不俗能力和良好发展态势,强化学习强调智能体通过与环境的直接交互来学习,而不需要可仿效的监督信号或对周围环境的完全建模,因此在解决长时间持续性复杂对抗任务时具有一定优势。相对于单智能体强化学习,多智能体强化学习具有更高的复杂度:一方面随着智能体数量的增加,相应的策略空间呈指数级增加,其难度远超围棋等棋类游戏;另一方面随着异构智能体的加入,多智能体间的通信、协作和配合变得更加重要。
[0004]深度强化学习(Deep reinforcement learning,即DRL)是近年来强化学习的一个发展迅速的新兴方向,它利用深度神经网络拟合难以学习的价值函数或最优策略。最近几年DRL创造出了许多惊人的成绩。Deepmind提出的基于值方法的深度Q网络(Deep Q

Networks,即DQN),为深度强化学习的发展奠定了基础。随之产生了DQN的许多变种,如:Dueling DQN、Double DQN(DDQN)等。
[0005]集中式训练分布式执行(CTDE):它由演员评论家框架发展而来,设计如图2.a所示,集中式训练,是指在训练中使用联合行为值函数对智能体进行训练,智能体智能观测到部分信息,包括部分的状态信息和部分的动作信息,在这种情况下,应该采用什么样的策略。通过学习多智能体的协调策略(Coordinated Policy),能够针对Dec

POMDP模型进行优化。COMA(Counterfactual Multi

Agent Policy Gradients)算法利用集中式的评论家网络对每个智能体的状态

动作价值函数进行估计,使用分布式的动作网络对每个智能体的策略进行迭代更新。
[0006]反事实基线(counterfactual baseline):这个想法是受奖励变化(difference rewards)的启发,在奖励变化中,代理根据比较全局奖励与将代理动作换位默认动作后的全局奖励来制定奖励函数进行学习。虽然奖励变化是解决奖励分配问题的一个有力的方式,但为了估计基线,需要一个仿真器。当一个模拟器已经被用于学习时,奖励变化方法会增加必须进行的仿真的数量,因为每个代理的奖励变化需要一个单独的反事实仿真。并且如何选择默认动作还不清楚。COMA通过使用集中的评论家(critic)来计算优势函数,比较
当前动作的价值与忽视单个代理动作并保持其它代理动作不变的反事实基线。
[0007]GRU(Gate Recurrent Unit)是循环神经网络的一种,其同LSTM一样能够有效捕捉长序列之间的语义关联,为了解决长期记忆和反向传播中的梯度等问题而提出来的,缓解梯度消失或爆炸现象。效果都优于传统RNN且计算复杂度相比LSTM要小。

技术实现思路

[0008]本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于反事实基线的无人机集群对抗博弈仿真方法及系统,实现在无人机集群对抗博弈中纳什均衡的求解方法。
[0009]为解决上述技术问题,本专利技术所采取的技术方案是:一种基于反事实基线的无人机集群对抗博弈仿真方法,包括以下步骤:
[0010]步骤1、设定作战数据回放缓冲区D、对抗博弈的智能体数N和对抗博弈回合数M以及每回合对抗博弈双方最大交互长度T;初始化每个智能体的动作网络参数ω和评估网络参数θ,一个评估网络对应一个目标评估网络,将评估网络的网络参数复制给目标网络;设定回放缓冲区D用来保存临时作战数据,用来更新动作网络和评估网络;
[0011]步骤2、初始化无人机集群对抗博弈环境,获取环境的初始状态空间S以及每个智能体的观察值O;每一个智能体根据自己的动作网络执行动作将所有无人机的执行动作联合得到无人机集群的联合动作a
t
=(a
1,t
,a
2,t
,

,a
N,t
),通过联合动作a
t
与对抗博弈环境交互;并从对抗博弈环境中获取整个无人机集群下一时刻的观测状态o
t+1
和奖励r
t+1
,同时将交互经验即对战数据存储到回放缓冲区D中;
[0012]步骤2.1:无人机执行各个动作的概率P(u)由动作网络最终层z输出,选取智能体状态对应动作作为智能体的动作策略π,智能体状态对应动作由ε

greedy策略选取,如下公式所示:
[0013][0014]其中,a为智能体采取的最优动作,A为动作集合,A
*
为评估网络输出的最大Q值对应的动作,π(a|S
t
)为智能体在状态S
t
下对应的动作,ε为概率值,ε

greedy策略以概率ε均匀选择所有动作,以概率1

ε选择最优动作;
[0015]步骤2.2:将每局对战数据加入回放缓冲区D中,每一局对战数据包括下面信息:
[0016][0017]其中,s
t
为当前智能体状态,为当前智能体观测状态,n为智能体的编号,a
i
为第i个智能体的动作,为智能体联合动作,r
t
为环境反馈即时奖励;
[0018]步骤3、随机从回放缓冲区D中采样一些数据,这些数据必须是不同的回合中的相同无人机对应数据;计算评估网络输出的损失函数,并采用梯度下降方法,把评估网络输出
误差最小化;
[0019]步骤3.1:在评估网络中输入当前智能体的全部状态其中,下标x,y表示在二维环境中的位置,v为智能体速度,θ为航向角速度,g为剩余干扰次数,当前智能体的观测状态其中是第j个友军的观测状态子向量,除自身外其他智能体的联合动作,自身智能体的one

hot编码,所有智能体上一时刻的动作,评估网络输出为当前智能体所有可执行动作的Q值;
[0020]步骤3.2:计算评估网络的梯度,并使用TD

error的方式更新评估网络权重,把损失函数的值降到最低;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于反事实基线的无人机集群对抗博弈仿真方法,其特征在于:包括以下步骤:步骤1、设定作战数据回放缓冲区D、对抗博弈的智能体数N和对抗博弈回合数M以及每回合对抗博弈双方最大交互长度T;初始化每个智能体的动作网络参数ω和评估网络参数θ,一个评估网络对应一个目标评估网络,将评估网络的网络参数复制给目标网络;设定回放缓冲区D用来保存临时作战数据,用来更新动作网络和评估网络;步骤2、初始化无人机集群对抗博弈环境,获取环境的初始状态空间S以及每个智能体的观察值O;每一个智能体根据自己的动作网络执行动作将所有无人机的执行动作联合得到无人机集群的联合动作a
t
=(a
1,t
,a
2,t
,

,a
N,t
),通过联合动作a
t
与对抗博弈环境交互;并从对抗博弈环境中获取整个无人机集群下一时刻的观测状态o
t+1
和奖励r
t+1
,同时将交互经验即对战数据存储到回放缓冲区D中;步骤3、随机从回放缓冲区D中采样一些数据,这些数据必须是不同的回合中的相同无人机对应数据;计算评估网络输出的损失函数,并采用梯度下降方法,把评估网络输出误差最小化;步骤4、通过当前动作策略计算每个智能体每个步长的基线B;步骤5、使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数,比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线,更新智能体的动作网络;将更新的动作网络参数保存,并迭代更新,达到对抗博弈回合数M为止,终止退出。2.根据权利要求1所述的一种基于反事实基线的无人机集群对抗博弈仿真方法,其特征在于:所述步骤2的具体方法为:步骤2.1:无人机执行各个动作的概率P(u)由动作网络最终层z输出,选取智能体状态对应动作作为智能体的动作策略π,智能体状态对应动作由ε

greedy策略选取,如下公式所示:其中,a为智能体采取的最优动作,A为动作集合,A
*
为评估网络输出的最大Q值对应的动作,π(a|S
t
)为智能体在状态S
t
下对应的动作,ε为概率值,ε

greedy策略以概率ε均匀选择所有动作,以概率1

ε选择最优动作;步骤2.2:将每局对战数据加入回放缓冲区D中,每一局对战数据包括下面信息:其中,s
t
为当前智能体状态,为当前智能体观测状态,n为智能体的编号,a
i
为第i个智能体的动作,为智能体联合动作,r
t
为环境反馈即时奖励。3.根据权利要求2所述的一种基于反事实基线的无人机集群对抗...

【专利技术属性】
技术研发人员:王尔申宏晨刘帆蔚保国徐嵩何成龙陈昌龙曲萍萍别玉霞庞涛
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1