一种基于多智能体安全强化学习的集群航迹自动规划方法技术

技术编号：38673045 阅读：9 留言：0更新日期：2023-09-02 22:49

本发明专利技术提供的一种基于多智能体安全强化学习的集群航迹自动规划方法，包括以下步骤：设计多智能体安全强化学习的集群航迹自动规划的求解环境；建立多智能体安全强化学习的集群航迹自动规划的网络模型；基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型；将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。本发明专利技术的基于多智能体安全强化学习的集群航迹自动规划方法，能够进行多弹飞行航迹同步规划，在训练时使用全局信息进行算法训练，充分使用环境的信息进行全局最优化，无需人为干预、简单易用。简单易用。简单易用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多智能体安全强化学习的集群航迹自动规划方法

[0001]专利技术涉及军事运筹
，特别涉及一种基于多智能体安全强化学习的集群航迹自动规划方法、电子设备和存储介质。

技术介绍

[0002]现有技术中，飞行航迹规划作为导弹武器任务规划的核心内容，需要综合考虑武器机动性能、载荷特性、导航制导、飞行安全和生存对抗等多种因素，合理优化设计出从发射点到目标点的飞行路线，是一个复杂的多目标、多约束最优化问题。目前，对导弹武器飞行航迹规划的研究主要集中于单个武器的单条航迹规划，对于多弹集群攻击多目标条件下的集群攻击飞行航迹自动规划问题，因涉及的规划场景复杂、约束条件众多，相关研究甚少，尚无有效解决方法。
[0003]传统航迹规划方法的典型代表有人工势场法、A*算法、D*算法、狄杰斯特拉算法、Bug算法、遗传算法以及粒子群算法等，多数只适用于固定不变的场景，当环境发生变化时需要重新计算，计算量大，并且只适用于知道环境全局信息的场景，而人工势场法虽可使用局部观测并且适应动态变化环境，但对观测信息要求高，存在势场为零导致智能体不再运动或永远抵达不了目标点，导致问题求解失败的情况。
[0004]智能规划方法主要是强化学习算法，主要包括单智能体和多智能体两种，单智能体求解方法适应性较差一般仅用于简单场景的单航迹规划，现有的多智能体航迹规划方法多是对单智能体航迹规划方法进行简单移植改造放在多智能体环境中，主要采用集中式规划方法进行求解，由于状态空间过大导致计算维度爆炸、求解时实性差。另外，由于在多发导弹集群攻击飞行航...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，包括以下步骤：设计多智能体安全强化学习的集群航迹自动规划的求解环境；建立多智能体安全强化学习的集群航迹自动规划的网络模型；基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型；将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。2.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，所述设计多智能体安全强化学习的集群航迹自动规划的求解环境的步骤，包括，定义每个智能体的位置信息，每个智能体对应的目标点位置信息，和智能体与目标点之间的距离；定义智能体的速度，角速度，在世界坐标下前进方向与目标点之间的夹角；定义障碍物与智能体的相对距离；定义智能体与智能体之间的相对距离；每个智能体探测周围障碍物或者其他智能体距离信息，构成列表数据；定义智能体在时刻t的局部观测值，定义时刻t的全局观测值。3.根据权利要求2所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，还包括，设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间，每个武器的动作空间是连续的，包括线速度与角速度；设计武器目标分配深度强化学习求解环境的奖励和代价，对于环境的奖励以及代价，将完成到达目标点的任务作为奖励，到达目标点的时候，给予智能体正奖励，其他时刻给予智能体负的相对距离奖励以及相对角度奖励，激励智能体快速到达目标点，并且角度指向目标点；根据智能体与障碍物或者其他智能体之间最小相对距离进行判断，如果智能体与障碍物或者其他智能体的相对距离小于指定距离阈值，则产生代价。4.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，所述建立多智能体安全强化学习的集群航迹自动规划的网络模型的步骤，包括，智能体执行者网络是输入或者是输入与上一时刻智能体所做的动作的组合经过一个多层感知机后，输出值中间信息，中间信息再经过两个多层感知机后输出自己的信息提取值以及经过一个sigmoid激活函数处理的阈值，用于决策其他智能体的信息数量；其他智能体的信息由自注意力机制聚合得到，将阈值乘以加上自身信息提取值再经过两个多层感知机，输出正态分布的均值和方差，采用冲参数的方法选取根据均值和方差构成的正态分布选取动作，多层感知机为线性层，线性层之间使用Tanh作为激活函数。5.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，还包括，将当前智能体的中间信息作为注意力机制的查询，其他智能体的中间信息作为注意力机制的键和值，使用缩放点积注意力对查询和键进行计算，输出每个值对应的权重；
通过权重与值的点积获得聚合的信息M
i
，掩盖智能体本身信息，保留其他智能体的信息。6.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法，其特征在于，所述基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型的步骤，包括以下步骤，1）在搭建好模拟器和模型后，输入参数建立一个新的环境模型，初始化环境，每个智能体获得t时刻自身的局部观测值，在训练时，各个智能体的信息以及环境中障碍物信息被传递到评论者的网络中，构成全局观测值；2）智能体将局部观测值输入智能体执行者网络中，通过一个多层感知机后，保留自己的观测信息，使用自注意力机制与其他智能体交换信息，并将交换获...

【专利技术属性】
技术研发人员：王才红，董茜，曹扬，刘庆国，许馨月，吕乃冰，胡瑞雪，金瑞欣，
申请(专利权)人：中国人民解放军九六九零一部队，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人