一种基于强化学习的智能飞行器群体组建与重构方法技术

技术编号：41407509 阅读：6 留言：0更新日期：2024-05-20 19:34

本发明专利技术提出一种基于强化学习的智能飞行器群体组建与重构方法，属于人工智能技术领域，包括如下步骤：S1、基于强化学习的蜂群自组织；先进行作战任务分析，再进行杀伤链要素解析，在杀伤链要素解析的基础上，完成基于强化学习的作战单元自组织；采取基于深度强化学习的组织结构自学习方式针对每个特定任务形成特定组织结构，使用专家知识系统形成迁移学习与强化学习结合的方式，用收集的专家数据行为，约束智能体的探索性行为；S2、蜂群杀伤链路径动态优化，完成蜂群杀伤链路径规划任务；S3、自适应对抗演练与高质量博弈决策，通过实验结果验证模型合理性与先进性。本发明专利技术解决了现有技术无法求解蜂群最优组合，限制了蜂群最大作战效能发挥的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，具体涉及一种基于强化学习的智能飞行器群体组建与重构方法。

技术介绍

1、随着人工智能技术的发展,一大批突破性成果被引入到军事领域，对战争形态产生颠覆性影响，“网络中心战”已进化为“决策中心战”。在“决策中心战”体系中，智能决策系统发挥了重大影响力，其中蜂群动态重组，形成杀伤链打击目标是其作战系统多样性重要构成因素。而飞行器蜂群作为典型杀伤链，服务于“决策中心战”作战效能链构建，其快速组建和重构技术支撑快速、可伸缩、自适应的联合多域作战杀伤力的形成。

2、飞行器作战蜂群属于典型的分布式作战系统，联合海上船舰、无人机等作战单元，通过作战节点(感知、决策、行动单元)的灵活、动态、多样化、自适应组合，按需形成预期的作战效能。对临时产生的重要目标和打击需求，依照快速高效原则，打破既定作战编队和建制，动态聚合成能充分发挥协同效能的作战无人机节点，适时进行自主协同，突然释放杀伤力。

3、智能感知作战蜂群集感知、计算、决策、打击为一体，构成形散而神聚、灵敏高效杀伤网。各节点以决策为中心，针对作战任务进行快速组建，其组建方式将决定无人机蜂群作战效果发挥。此外，在既有编队受到敌方打击干扰，无人机蜂群“杀伤网”若快速修复重构、利用既有资源快速重构新的作战“杀伤网”，蜂群作战效能将得到极大的发挥。

4、随着现代战争越发呈现快节奏、高复杂度的特性，未来战争对智能化的要求日益迫切，基于智能感知决策系统的飞行器作战蜂群作为重要的“决策中心战”杀伤网，其组建和重构技术是发挥作战效能的核心技术。

5、由于飞行器蜂群作战节点混合异构、节点属性多样、蜂群编队组合空间爆炸，传统蜂群组建技术无法求解蜂群最优组合，无法实现蜂群最大作战效能的发挥。为实现作战蜂群高协同、高自主、强优化，研究飞行器蜂群的组建和重构技术十分必要。

技术实现思路

1、本专利技术提供一种基于强化学习的智能飞行器群体组建与重构方法，目的是解决现有技术无法求解蜂群最优组合，限制了蜂群最大作战效能发挥的问题。

2、本专利技术的目的是通过如下技术方案实现的：

3、一种基于强化学习的智能飞行器群体组建与重构方法，包括如下步骤：

4、s1、基于强化学习的蜂群自组织

5、包括作战任务分析、杀伤链要素解析和基于强化学习的作战单元自组织；

6、s1.1、作战任务分析

7、融合作战单元携带的蜂群中各项信息，实现对战场环境的全部探测，在实现共享目标信息、任务信息及指挥控制信息的基础上，组合形成信息网；

8、s1.2、杀伤链要素解析

9、预定义蜂群中的各项行为，将蜂群的行为分类为跟随、回避、攻击，将不同的作战单元预划分为不同种类的作战方式；采用四元素构造策略信息描述，分别为策略类型、选中单元、策略目标、执行动作序列；

10、在作战方式预定义的基础上，对每一个作战单元的作战能力进行评估，为形成组织结构后的杀伤链作战能力解析作战方式，评估作战能力；

11、策略类型表示下次输出动作的类型；选中单元为执行动作的单元；策略目标表示选择执行动作的目的地和对象；执行动作序列表示是否马上进行该动作，对于执行动作的人物的行为序列；

12、s1.3、在杀伤链要素解析的基础上，完成基于强化学习的作战单元自组织

13、模型以五元组(s,a,p,r,γ)描述，在一个离散时间步(t＝0,1,2,3..)中，在每一个t，智能体接收到环境状态的描述st∈s，s是环境中所有可能的状态空间，在当前的环境状态st基础上，模型选择一个动作at∈a(st)，a(st)代表在状态st时所有可行的动作区间，执行该动作at后，时间步跳转到t+1，智能体在该状态下获取到新的状态st+1，同时，环境反馈一个奖励值rt+1∈r；

14、在每一个时间t，智能体接收到的环境状态到选择相应动作之间的映射称为策略，用π表示，π(a|s)＝p[at＝a|st＝s]表示在给定环境状态st＝s的情况下，策略网络选择动作at＝a的概率；

15、奖励值函数为在系统采取策略时，在给定环境状态的情况下，智能体采用策略π时的期望奖励值；公式如下：

16、

17、式中，γ表示时间折扣，即不同时间步的奖赏在当前时间步的不同权重；

18、在强化学习的训练过程中，智能体的目的即为让环境反馈的奖励值最大；

19、采取基于深度强化学习的组织结构自学习方式针对每个特定任务形成特定组织结构，使用专家知识系统形成迁移学习与强化学习结合的方式，用收集的专家数据行为，约束智能体的探索性行为，缩小策略空间；

20、s2、蜂群杀伤链路径动态优化

21、根据作战任务、战场环境和作战单元的性能，为蜂群中每一个作战单元制定有序任务序列，在避免资源冲突达到整体最优；针对飞行器的特点及战场环境的约束进行建模，约束不同因素完成蜂群杀伤链路径规划任务；

22、s3、自适应对抗演练与高质量博弈决策

23、首先搭建一套基于红蓝对抗的即时战略平台，利用该仿真推演平台综合处理战场反馈数据与作战单元蜂群对战决策，让蜂群组建与重构模型依托推演平台完成基于逆向强化学习的自我博弈，通过实验结果验证模型合理性与先进性。

24、作为进一步优化，强化学习的训练过程中，训练过程用如下公式表示：

25、

26、式中，s代表环境；

27、a代表在s情况下智能体采取的动作；

28、表示专家策略期望；

29、利用专家数据的行为构造新型奖励，以专家行为奖励值最大为前提，智能体训练过程中模型输出奖励值需接近该奖励值，该过程用如下公式表示：

30、

31、作为进一步优化，蜂群杀伤链路径动态优化按如下步骤进行：

32、在算法中预定义动作空间、状态空间和奖励：

33、动作空间预定义为：作战单元输出的动作空间为前进、左转、右转、后退；采用固定步长和转弯角度；

34、状态空间预定义为：以目标地点图像信息及当前环境采集反馈的环境信息作为该模型的联合联合输入；

35、奖励设计预定义为:奖励关注于最小化导航至目标的轨迹长度，即模型只在任务完成时提供一个目标达到的奖励。

36、作为进一步优化，在算法中预定义奖励步骤中，目标达到的奖励为10.0，模型中增加了一个时间惩罚作为即时完成导航任务的奖励值；时间惩罚为-0.01；目标是找到从作战单位当前所在的位置移动到目标所在位置的最小长度序列，以目标地点的环境信息及当前环境采集反馈信息的作为该模型的联合输入，学习随机的策略函数，并在动作空间上产生一个概率分布，作战单元从策略分布中不断的采取行动，直到到达目标地点；在系统中采取的探索策略为策略；训练完成后，基于训练完成的模型，在动态获取蜂群的环境位置后，获取当前最优化路径。

37、作为进一步优化，在算本文档来自技高网...

【技术保护点】

1.一种基于强化学习的智能飞行器群体组建与重构方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的智能飞行器群体组建与重构方法，其特征在于，所述强化学习的训练过程中，训练过程用如下公式表示：

3.根据权利要求1所述的智能飞行器群体组建与重构方法，其特征在于，所述蜂群杀伤链路径动态优化按如下步骤进行：

4.根据权利要求3所述的智能飞行器群体组建与重构方法，其特征在于，所述在算法中预定义奖励步骤中，目标达到的奖励为10.0，模型中增加了一个时间惩罚作为即时完成导航任务的奖励值；时间惩罚为-0.01；目标是找到从作战单位当前所在的位置移动到目标所在位置的最小长度序列，以目标地点的环境信息及当前环境采集反馈信息的作为该模型的联合输入，学习随机的策略函数，并在动作空间上产生一个概率分布，作战单元从策略分布中不断的采取行动，直到到达目标地点；在系统中采取的探索策略为策略；训练完成后，基于训练完成的模型，在动态获取蜂群的环境位置后，获取当前最优化路径。

5.根据权利要求4所述的智能飞行器群体组建与重构方法，其特征在于，所述在算法中预定义动作

6.根据权利要求1～5其中任意一项所述的智能飞行器群体组建与重构方法，其特征在于，所述自适应对抗演练与高质量博弈决策按如下步骤进行：搭建一套基于红蓝对抗的即时战略平台，包括底层的环境仿真、数据库及决策子系统构成；构建全新特征的红蓝对抗战场，平台整体架构包括后台与前端；后台建立数据库和环境仿真系统，环境仿真系统包括地理信息、气象信息和电磁信息，数据库包括装备数据、策略数据和胜率数据；前端利用该仿真推演平台综合处理战场反馈数据，依托于作战辅助决策模型推演平台完成强化学习训练支撑，通过实验结果验证模型合理性与先进性。

...

【技术特征摘要】

1.一种基于强化学习的智能飞行器群体组建与重构方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的智能飞行器群体组建与重构方法，其特征在于，所述强化学习的训练过程中，训练过程用如下公式表示：

3.根据权利要求1所述的智能飞行器群体组建与重构方法，其特征在于，所述蜂群杀伤链路径动态优化按如下步骤进行：

【专利技术属性】
技术研发人员：王晓天，陈超，窦小明，金娜，齐征，于雪洁，梁宇，顾天祺，李昊星，蒋永瑞，赵俊翔，薛晗庆，李萌萌，徐聪，施卫科，
申请(专利权)人：北京临近空间飞行器系统工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人