一种基于双重深度Q学习的航空器实时协同航迹规划方法技术

技术编号：40954757 阅读：2 留言：0更新日期：2024-04-18 20:31

本发明专利技术公开了一种基于双重深度Q学习的航空器实时协同航迹规划方法,首先构建基于环境‑智能体交互的深度强化学习模型，设计带评论者网络的双重深度Q学习算法训练航迹规划人工智能体，使其能够完成随机动态积雨云场景下，任意位置、航向、航迹意图的两架航空器实时协同航迹规划任务。然后设计启发式方法将空域内多航空器协同航迹规划问题转换为多次两架航空器协同航迹规划问题，获得多项式计算时间复杂度的协同航迹规划算法，并由训练后智能体进行协同航迹规划。该方法旨在降低管制员工作负荷，提升航空器战术运行阶段航迹规划自动化、协同化、智能化水平。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于双重深度q学习的航空器实时协同航迹规划方法，属于人工智能、空中交通管制、航空器协同航迹规划等。

技术介绍

1、航空器运行时的实时航迹规划问题由于不确定因素多，运行环境复杂，且对于算法求解实时性要求高，很难采用一成不变的航迹规划算法解决，正因如此，目前全世界主要的采用战术航迹规划手段依赖于空中交通管制员实时管制指挥与航迹调配。而当前针对多架航空器协同航迹规划问题，面向气象不确定干扰下的航迹规划问题，乃至随机动态气象条件下多航空器协同航迹规划问题，少有普适性强的、可复现推广能力强的战术航迹规划算法设计理论。因此，本专利技术提出了一种基于双重深度q学习的航空器实时协同航迹规划方法，旨在解决基于航班运行、空域环境、气象条件等态势信息输入信息支撑下，实时、安全、高效的航空器协同化精细化四维航迹规划问题。

技术实现思路

1、本专利技术提供了一种基于双重深度q学习的航空器实时协同航迹规划方法，解决了
技术介绍
中披露的问题。

2、为解决上述技术问题，本专利技术所采用的技术方案是：

3、一种基于双重深度q学习的航空器实时协同航迹规划方法，其主要步骤包括：

4、步骤一:协同航迹规划深度强化学习模型构建

5、步骤1.1:航迹规划智能体设计

6、训练适应随机动态气象条件，并且面向两架具有任意航迹意图、位置、航向和速度的航空器完成协同航迹规划任务。即智能体的作用为获取当前环境、航空器状态，并根据训练后得到的策略为两架航空器分配动

7、步骤1.2:基础环境设计

8、设计航空器状态转移函数与奖励值函数，作为航空器运行环境与智能体学习环境.所设计奖励值函数由以下四部分组成：航迹意图奖励(接近/到达目的地)、航空器油耗奖励、航空器安全奖励(避免短期冲突告警奖励)、积雨云安全奖励(规避危险气象)。各类奖励函数值公式如：

9、

10、其中，f_reward表示两架航空器i∈{1,2}得到的航空器油耗奖励；d_reward示两架航空器i∈{1,2}根据预测航迹(速度趋势外推)得到的航空器航迹意图奖励(接近/到达目的地)。s_cb_rewardi,j为不同时间戳j∈{1,15,60}航空器获得的分步式航空器积雨云安全奖励(规避危险气象)，s_a_rewardi,j为不同时间戳j∈{1,15,60}航空器获得的分步式航空器安全奖励(避免短期冲突告警奖励)。

11、步骤1.3:设计评论者、经验池，以及智能体-环境交互架构

12、步骤二:基于带评论者网络的双重深度q学习航迹规划智能体训练

13、带评论者网络的双重深度q学习智能体训练算法包含：经验采样、经验存储、经验回放、更新评论者网络、更新状态等流程顺序。带评论者网络的双重深度q学习智能体训练算法整体流程如以下伪代码所示。

14、带评论者网络的双重深度q学习智能体训练算法伪代码

15、

16、

17、步骤三：基于智能体决策的多航空器协同航迹规划

18、基于智能体根据冲突严重程度进行成对航空器的航迹决策主要步骤包含：

19、步骤3.1：建立由一个时间戳内等待航迹规划的航班组成的集合假设空域内有n架航空器(flight1-flightn)。对于每个时间戳，初始化集合

20、

21、步骤3.2：建立航空器水平、垂直间隔矩阵m(n×n)：

22、m(i,j)＝[level(flighti,flightj),distance(flighti,flightj)]

23、

24、distance(flighti,flightj)＝dij＝||[xflighti,yflighti]-[xflightj,yflightj]||

25、步骤3.3：选择优先级最高的航班对，即:

26、

27、步骤3.4：如果该航班在集合中，则由agent为该其分配一个动作，否则，跳过该航班。

28、步骤3.5：从集合中删除该航班，回到步骤3,直到

29、基于智能体决策的多航空器协同航迹规划算法整体流程如以下伪代码所示：

30、基于智能体自主决策的n架航空器协同航迹规划算法

31、

32、本专利技术的有益效果在于：本专利技术通过搭建人工智能体进行实时航迹规划，是人工智能理论与空中交通管制理论融合的一次创新实践，可为空中交通管制员提供及时可靠的航空器航迹决策支持，从而降低管制员工作负荷，弥补了当前我国在战术航迹规划领域，尤其在不良气象条件下(如积雨云、雷暴天气等)的空中交通管制自动化系统/决策支持系统的短板，提升航空器战术运行阶段航迹规划自动化、协同化、智能化水平。与现有战术级航迹规划技术相比，本专利技术的显著优势在于对航迹规划环境的适应性以及航迹规划的决策实时性能，所提出航迹规划方法可以在空域存在随机动态的积雨云天气时使用，对于空域运行环境不敏感，同时，本专利技术航迹规划方法在规划航迹粒度(秒级)，规划实时性(秒级)，同时可规划航空器数量上(1-50架)均有较好性能。

本文档来自技高网...

【技术保护点】

1.一种基于双重深度Q学习的航空器实时协同航迹规划方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的一种基于双重深度Q学习的航空器实时协同航迹规划方法，其特征在于，所述步骤一包含以下步骤：智能体设计、基础环境设计、评论者设计、经验池设计、智能体-环境交互架构设计。

3.根据权利要求2所述的一种基于双重深度Q学习的航空器实时协同航迹规划方法，其特征在于，所述基础环境设计中，设计航空器状态转移函数与奖励值函数，作为航空器运行环境与智能体学习环境，所设计奖励值函数由以下四部分组成：航迹意图奖励、航空器油耗奖励、航空器安全奖励、积雨云安全奖励；各类奖励函数值公式如：

4.根据权利要求1所述的一种基于双重深度Q学习的航空器实时协同航迹规划方法，其特征在于，所述步骤二包含以下步骤：训练评论者网络、训练双重深度Q值网络。

5.根据权利要求4所述的一种基于双重深度Q学习的航空器实时协同航迹规划方法，其特征在于，所述训练训练双重深度Q值网络中，带评论者网络的双重深度Q学习智能体训练算法包含：经验采样、经验存储、经验回放、更新评论者网络、更新状态流程顺序。

6.根据权利要求1所述的一种基于双重深度Q学习的航空器实时协同航迹规划方法，其特征在于，所述步骤三中基于智能体根据冲突严重程度进行成对航空器的航迹决策，包含以下步骤：

...

【技术特征摘要】

1.一种基于双重深度q学习的航空器实时协同航迹规划方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的一种基于双重深度q学习的航空器实时协同航迹规划方法，其特征在于，所述步骤一包含以下步骤：智能体设计、基础环境设计、评论者设计、经验池设计、智能体-环境交互架构设计。

3.根据权利要求2所述的一种基于双重深度q学习的航空器实时协同航迹规划方法，其特征在于，所述基础环境设计中，设计航空器状态转移函数与奖励值函数，作为航空器运行环境与智能体学习环境，所设计奖励值函数由以下四部分组成：航迹意图奖励、航空器油耗奖励、航空器安全奖励、积雨云安全奖励；各类奖励函数值公式如...

【专利技术属性】
技术研发人员：张洪海，周锦伦，李一可，石宗北，华明壮，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人