一种多智能体博弈的控制策略优化方法及装置制造方法及图纸

技术编号:37787721 阅读:13 留言:0更新日期:2023-06-09 09:18
本申请公开了一种多智能体博弈的控制策略优化方法及装置,包括;获取无人机的观测量以及无人机集群的联合观测量;将无人机i在t时刻的观测量输入Actor网络,根据策略得到动作的概率分布,根据高斯分布输出固定翼无人机的控制量;将无人机集群的联合观测量输入Critic网络,根据策略得到无人机i的评价值,并确定无人机集群的联合价值;执行根据策略得到无人机i的动作;基于无人机集群的联合观测量、联合价值以及奖励构建目标大小的训练集;根据GAE,计算当前时刻之后的累计回报;基于计算的当前时刻之后的累计回报,进行梯度训练;输出控制策略。本申请实施例引入不同的学习算法、灵活变更初始想定,具有较高的泛化性和实用性。具有较高的泛化性和实用性。具有较高的泛化性和实用性。

【技术实现步骤摘要】
一种多智能体博弈的控制策略优化方法及装置


[0001]本申请涉及无人机
,尤其涉及一种多智能体博弈的控制策略优化方法及装置。

技术介绍

[0002]自然界中存在各种各样的多智能体系统,如鸟群、狼群等,智能体通过与自然界进行交互以及种群内、种群间互相学习获得了在自然界中生存的能力。多智能体学习算法借鉴了自然界中的个体和群体与环境进行交互并进化的机制,通过使智能体从试错中学习和改进的方式来适应环境,从而获得最优的群体收益。
[0003]近年来,对深度强化学习的深入研究使得多智能体博弈训练算法得到了快速的发展,在其他领域也获得了广泛的应用。在真实度较高的虚拟环境中,博弈对抗的双方面临着许多问题,如双方都是复杂的拥有连续动作空间的多智能体系统,某一方可能拥有雷达/防空等对方无法得知的手段,天气、光照不断变化等,大大增加了学习的难度。
[0004]目前市场上的多智能体博弈训练环境大多是基于实时战略(RTS)游戏和自行构想的场景,也有一些基于GIS的仿真平台接入了深度强化学习算法进行智能推演和仿真。
[0005]目前市场上的多智能体博弈训练环境大多是基于实时战略(RTS)游戏和自行构想的场景。但如果想将智能算法应用到现实环境中,实时战略游戏不具有参考意义,自行构想的场景通常都比较单一,会有元素的缺失。
[0006]基于GIS的仿真平台通常用于大规模场景的推演,注重全局推演结果,而对于环境场景的细节描述不够清晰,不注重少量智能体集群的具体行为和控制,无法训练多智能体的协同、博弈对抗能力。/>[0007]现有的基于智能算法的多智能体训练仿真平台,受限于仿真环境真实度较低以及算法集成度不足,应用场景十分受限,训练效果以及模型的泛化能力难以满足应用需求。并且未有基于VR功能的多智能体训练方法,使得平台的交互体验不足。

技术实现思路

[0008]本申请实施例提供一种多智能体博弈的控制策略优化方法及装置,引入不同的学习算法、灵活变更初始想定,具有较高的泛化性和实用性。
[0009]本申请实施例提供一种多智能体博弈的控制策略优化方法,所述智能体至少包括无人机,应用于实现同构、异构多智能体博弈控制策略优化,包括如下步骤:
[0010]预先构建所需的地形模型、环境模型以及智能体模型;
[0011]为各无人机建立一个Actor网络,并为无人机集群建立一个Critic网络;
[0012]获取无人机的观测量以及无人机集群的联合观测量;
[0013]将无人机i在t时刻的观测量输入Actor网络,根据策略π
i
得到动作的概率分布根据高斯分布输出固定翼无人机的控制量u
t,
i,并将控制量u
t,i
映射至动
力学控制范围;
[0014]将无人机集群的联合观测量O
t
输入Critic网络,根据策略W得到无人机i的评价值并确定无人机集群的联合价值V;
[0015]执行根据策略π
i
得到无人机i的动作,得到无人机i执行该动作得到的奖励以及无人机集群的联合奖励Rt、以及在第t+1时刻无人机i的观测量和无人机集群的联合观测量O
t+1

[0016]基于无人机集群的联合观测量、联合价值以及奖励构建目标大小的训练集;
[0017]根据广义优势函数估计(Generalized Advantage Estimator,GAE)方法,计算当前时刻之后的累计回报;
[0018]基于计算的当前时刻之后的累计回报以及构建的训练集,进行梯度上升训练以及,更新Actor网络的策略,以及进行梯度下降训练,更新Critic网络的评价指标;
[0019]输出优化后的控制策略。
[0020]可选的,还包括如下初始化步骤:
[0021]初始化Actor网络的参数θ和Critic网络的参数使得θ(0)和满足神经网络正交初始化;
[0022]设定学习率α;
[0023]设定深度强化学习的总步长Step
max
和所需的训练集大小batch_size;
[0024]初始化缓存器D。
[0025]可选的,将控制量u
t,i
映射的动力学控制范围包括:横滚角(Roll)、俯仰角(Pitch)、偏转角(Yaw)和推进力(Throttle)。
[0026]可选的,根据广义优势函数估计(Generalized Advantage Estimator,GAE)方法满足:
[0027][0028]其中,γ是折扣因子,λ是GAE方法的参数;
[0029]计算当前时刻之后的累计回报满足:
[0030][0031]其中,T是总步长Step
max

[0032]可选的,基于计算的当前时刻之后的累计回报以及构建的训练集,进行梯度上升训练,更新Actor网络的策略包括:基于计算的当前时刻之后的累计回报以及构建的训练集,通过Adam优化器,采用如下公式进行梯度上升训练:
[0033][0034]其中,其中,是GAE方法计算的结果,S是策略熵,σ是策略熵的超参数,n是无人机的数量;
[0035]采用如下公式进行梯度下降训练,更新Critic网络的评价指标:
[0036][0037]Adam优化器的参数ε=1e

5。
[0038]可选的,无人机执行动作得到的奖励满足:
[0039][0040]本申请实施例还提出一种多智能体博弈的控制策略优化装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的多智能体博弈的控制策略优化方法的步骤。
[0041]本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的多智能体博弈的控制策略优化方法的步骤。
[0042]本申请实施例通过引入不同的学习算法、能够实现灵活变更初始想定,具有较高的泛化性和实用性。
[0043]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0044]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0045]图1为本申请实施例的整体流程示意;
[0046]图2为本申请实施例的无人机由“大脑”控制示意;
[0047]图3为本申请实施例的通信组件架构示意;
[0048]图4为本申请实施例的控制中心的结构;
[0049]图5为本申请实施例的MAPPO算法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多智能体博弈的控制策略优化方法,其特征在于,所述智能体至少包括无人机,应用于实现同构、异构多智能体博弈控制策略优化,包括如下步骤:预先构建所需的地形模型、环境模型以及智能体模型;为各无人机建立一个Actor网络,并为无人机集群建立一个Critic网络;获取无人机的观测量以及无人机集群的联合观测量;将无人机i在t时刻的观测量输入Actor网络,根据策略π
i
得到动作的概率分布根据高斯分布输出固定翼无人机的控制量u
t,i
,并将控制量u
t,i
映射至动力学控制范围;将无人机集群的联合观测量O
t
输入Critic网络,根据策略W得到无人机i的评价值并确定无人机集群的联合价值V;执行根据策略π
i
得到无人机i的动作,得到无人机i执行该动作得到的奖励以及无人机集群的联合奖励R
t
、以及在第t+1时刻无人机i的观测量和无人机集群的联合观测量O
t+1
;基于无人机集群的联合观测量、联合价值以及奖励构建目标大小的训练集;根据广义优势函数估计(Generalized Advantage Estimator,GAE)方法,计算当前时刻之后的累计回报;基于计算的当前时刻之后的累计回报以及构建的训练集,进行梯度上升训练,以及,更新Actor网络的策略,以及进行梯度下降训练,更新Critic网络的评价指标;输出优化后的控制策略。2.如权利要求1所述的多智能体博弈的控制策略优化方法,其特征在于,还包括如下初始化步骤:初始化Actor网络的参数θ和Critic网络的参数φ,使得θ(0)和满足神经网络正交初始化;设定学习率α;设定深度强化学习的总步长Step
max
...

【专利技术属性】
技术研发人员:董琦尚晓舟韦应栋杨焱煜王锦宇陆军
申请(专利权)人:中国电子科技集团公司电子科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1