一种基于多智能体安全强化学习的集群航迹自动规划方法技术

技术编号:38673045 阅读:9 留言:0更新日期:2023-09-02 22:49
本发明专利技术提供的一种基于多智能体安全强化学习的集群航迹自动规划方法,包括以下步骤:设计多智能体安全强化学习的集群航迹自动规划的求解环境;建立多智能体安全强化学习的集群航迹自动规划的网络模型;基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型;将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。本发明专利技术的基于多智能体安全强化学习的集群航迹自动规划方法,能够进行多弹飞行航迹同步规划,在训练时使用全局信息进行算法训练,充分使用环境的信息进行全局最优化,无需人为干预、简单易用。简单易用。简单易用。

【技术实现步骤摘要】
一种基于多智能体安全强化学习的集群航迹自动规划方法


[0001]专利技术涉及军事运筹
,特别涉及一种基于多智能体安全强化学习的集群航迹自动规划方法、电子设备和存储介质。

技术介绍

[0002]现有技术中,飞行航迹规划作为导弹武器任务规划的核心内容,需要综合考虑武器机动性能、载荷特性、导航制导、飞行安全和生存对抗等多种因素,合理优化设计出从发射点到目标点的飞行路线,是一个复杂的多目标、多约束最优化问题。目前,对导弹武器飞行航迹规划的研究主要集中于单个武器的单条航迹规划,对于多弹集群攻击多目标条件下的集群攻击飞行航迹自动规划问题,因涉及的规划场景复杂、约束条件众多,相关研究甚少,尚无有效解决方法。
[0003]传统航迹规划方法的典型代表有人工势场法、A*算法、D*算法、狄杰斯特拉算法、Bug算法、遗传算法以及粒子群算法等,多数只适用于固定不变的场景,当环境发生变化时需要重新计算,计算量大,并且只适用于知道环境全局信息的场景,而人工势场法虽可使用局部观测并且适应动态变化环境,但对观测信息要求高,存在势场为零导致智能体不再运动或永远抵达不了目标点,导致问题求解失败的情况。
[0004]智能规划方法主要是强化学习算法,主要包括单智能体和多智能体两种,单智能体求解方法适应性较差一般仅用于简单场景的单航迹规划,现有的多智能体航迹规划方法多是对单智能体航迹规划方法进行简单移植改造放在多智能体环境中,主要采用集中式规划方法进行求解,由于状态空间过大导致计算维度爆炸、求解时实性差。另外,由于在多发导弹集群攻击飞行航迹规划的过程中,难免会出现单个武器与障碍物、与其他武器之间发生碰撞的情况,以往的处理方法分两种:一是在奖励中加入碰撞惩罚,但这种方法很难确定一个合适的惩罚值,惩罚值过高容易造成智能体“懦弱”的现象,宁愿飞偏也不再前进,惩罚过低又会使得智能体出现“鲁莽”现象,为了达成任务不惜发生多次碰撞;二是使用动作屏蔽机制,在各种情况下使用动作掩码对非法或者不安全动作进行屏蔽,但这种方法只适用于离散动作空间,并且需要人为设计,可能出现获取不到最优策略的情况。
[0005]综上,现有的航迹规划方法均无法满足多弹集群攻击飞行航迹规划问题的求解需求。

技术实现思路

[0006]为了解决现有技术存在的问题,本专利技术提供一种基于多智能体安全强化学习的集群航迹自动规划方法,能够进行多弹飞行航迹同步规划,在训练时使用全局信息进行算法训练,充分使用环境的信息进行全局最优化,无需人为干预、简单易用。
[0007]为实现上述目的,本专利技术提供的一种基于多智能体安全强化学习的集群航迹自动规划方法,包括以下步骤:设计多智能体安全强化学习的集群航迹自动规划的求解环境;
建立多智能体安全强化学习的集群航迹自动规划的网络模型;基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型;将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。
[0008]进一步地,所述设计多智能体安全强化学习的集群航迹自动规划的求解环境的步骤,包括,定义每个智能体的位置信息,每个智能体对应的目标点位置信息,和智能体与目标点之间的距离;定义智能体的速度,角速度,在世界坐标下前进方向与目标点之间的夹角;定义障碍物与智能体的相对距离;定义智能体与智能体之间的相对距离;每个智能体探测周围障碍物或者其他智能体距离信息,构成列表数据;定义智能体在时刻t的局部观测值,定义时刻t的全局观测值。
[0009]进一步地,还包括,设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间,每个武器的动作空间是连续的,包括线速度与角速度;设计武器目标分配深度强化学习求解环境的奖励和代价,对于环境的奖励以及代价,将完成到达目标点的任务作为奖励,到达目标点的时候,给予智能体正奖励,其他时刻给予智能体负的相对距离奖励以及相对角度奖励,激励智能体快速到达目标点,并且角度指向目标点;根据智能体与障碍物或者其他智能体之间最小相对距离进行判断,如果智能体与障碍物或者其他智能体的相对距离小于指定距离阈值,则产生代价。
[0010]进一步地,所述建立多智能体安全强化学习的集群航迹自动规划的网络模型的步骤,包括,智能体执行者网络是输入或者是输入与上一时刻智能体所做的动作的组合经过一个多层感知机后,输出值中间信息,中间信息再经过两个多层感知机后输出自己的信息提取值以及经过一个sigmoid激活函数处理的阈值,用于决策其他智能体的信息数量;其他智能体的信息由自注意力机制聚合得到,将阈值乘以加上自身信息提取值再经过两个多层感知机,输出正态分布的均值和方差,采用冲参数的方法选取根据均值和方差构成的正态分布选取动作,多层感知机为线性层,线性层之间使用Tanh作为激活函数。
[0011]进一步地,还包括,将当前智能体的中间信息作为注意力机制的查询,其他智能体的中间信息作为注意力机制的键和值,使用缩放点积注意力对查询和键进行计算,输出每个值对应的权重;通过权重与值的点积获得聚合的信息M
i
,掩盖智能体本身信息,保留其他智能体的信息。
[0012]进一步地,所述基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型的步骤,包括以下步骤,
1)在搭建好模拟器和模型后,输入参数建立一个新的环境模型,初始化环境,每个智能体获得t时刻自身的局部观测值,在训练时,各个智能体的信息以及环境中障碍物信息被传递到评论者的网络中,构成全局观测值;2)智能体将局部观测值输入智能体执行者网络中,通过一个多层感知机后,保留自己的观测信息,使用自注意力机制与其他智能体交换信息,并将交换获得的信息与自身原有的信息进行整合,输出连续动作所需要的均值和方差,并使用重参数的方法采样获得动作,智能体动作记为;3)每个智能体在时刻t做出相应动作后,环境会随之而改变,进入时刻t+1后环境返回总体奖励R
t
和总体代价C
t
,每个智能体在时刻t+1会获得局部观测值,和用于训练的环境全局观测值;4)用记为所有智能体t时刻局部观测值的集合,记为所有智能体t时刻做出的动作的集合,将步骤2)到步骤4)获得的时刻t局部观察值集合、时刻t+1局部观察值集合动作集合、时刻t全局观测值、时刻t+1全局观测值、时刻t的奖励、时刻t的代价存储到经验回放池中;如果当前任务没有完成,则继续进行步骤2)到步骤4);如果当前任务完成但训练还未结束,执行步骤1);如果经验回放池中的样本数量达到预设值后,执行步骤5)

8)直至网络收敛;5)从经验回放池随机抽取一定批量样本进行训练。
[0013]6)使用梯度下降算法对损失函数求导,从而对每个智能体的评论者网络参数进行更新;7)冻结每个智能体中评论者网络的参数,计算评论者网络更新后的查询值,取其最小值作为最小查询值,将每个智能体的t的局部观测值输入其智能体执行者网络输出动作对数,使用值与计算执行者网络的损失函数;8)使用梯度下降算法对损失函数求导,对每个智能体的执行者策略网络参数进行更新,在一定训练间隔,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,包括以下步骤:设计多智能体安全强化学习的集群航迹自动规划的求解环境;建立多智能体安全强化学习的集群航迹自动规划的网络模型;基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型;将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。2.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,所述设计多智能体安全强化学习的集群航迹自动规划的求解环境的步骤,包括,定义每个智能体的位置信息,每个智能体对应的目标点位置信息,和智能体与目标点之间的距离;定义智能体的速度,角速度,在世界坐标下前进方向与目标点之间的夹角;定义障碍物与智能体的相对距离;定义智能体与智能体之间的相对距离;每个智能体探测周围障碍物或者其他智能体距离信息,构成列表数据;定义智能体在时刻t的局部观测值,定义时刻t的全局观测值。3.根据权利要求2所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,还包括,设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间,每个武器的动作空间是连续的,包括线速度与角速度;设计武器目标分配深度强化学习求解环境的奖励和代价,对于环境的奖励以及代价,将完成到达目标点的任务作为奖励,到达目标点的时候,给予智能体正奖励,其他时刻给予智能体负的相对距离奖励以及相对角度奖励,激励智能体快速到达目标点,并且角度指向目标点;根据智能体与障碍物或者其他智能体之间最小相对距离进行判断,如果智能体与障碍物或者其他智能体的相对距离小于指定距离阈值,则产生代价。4.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,所述建立多智能体安全强化学习的集群航迹自动规划的网络模型的步骤,包括,智能体执行者网络是输入或者是输入与上一时刻智能体所做的动作的组合经过一个多层感知机后,输出值中间信息,中间信息再经过两个多层感知机后输出自己的信息提取值以及经过一个sigmoid激活函数处理的阈值,用于决策其他智能体的信息数量;其他智能体的信息由自注意力机制聚合得到,将阈值乘以加上自身信息提取值再经过两个多层感知机,输出正态分布的均值和方差,采用冲参数的方法选取根据均值和方差构成的正态分布选取动作,多层感知机为线性层,线性层之间使用Tanh作为激活函数。5.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,还包括,将当前智能体的中间信息作为注意力机制的查询,其他智能体的中间信息作为注意力机制的键和值,使用缩放点积注意力对查询和键进行计算,输出每个值对应的权重;
通过权重与值的点积获得聚合的信息M
i
,掩盖智能体本身信息,保留其他智能体的信息。6.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,所述基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型的步骤,包括以下步骤,1)在搭建好模拟器和模型后,输入参数建立一个新的环境模型,初始化环境,每个智能体获得t时刻自身的局部观测值,在训练时,各个智能体的信息以及环境中障碍物信息被传递到评论者的网络中,构成全局观测值;2)智能体将局部观测值输入智能体执行者网络中,通过一个多层感知机后,保留自己的观测信息,使用自注意力机制与其他智能体交换信息,并将交换获...

【专利技术属性】
技术研发人员:王才红董茜曹扬刘庆国许馨月吕乃冰胡瑞雪金瑞欣
申请(专利权)人:中国人民解放军九六九零一部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1