一种基于奖励重塑强化学习的飞行器智能引导方法技术

技术编号：23850794 阅读：78 留言：0更新日期：2020-04-18 08:32

本发明专利技术公开了一种基于奖励重塑强化学习的飞行器智能引导方法，包括下述步骤：首先设置使用空域范围，以及飞行器和目的地的动态模型；然后，构建深度强化学习智能体，并重塑奖励函数，包括终止条件奖励、引导平滑性奖励、飞行器姿态奖励；之后，在训练模式下，设置飞行器初始姿态，目的地初始位置、朝向，并使用强化学习方法训练引导智能体；最后，在应用模式下，使用训练完成的引导智能体，引导飞行器沿着特定方向到达移动的目的地。本发明专利技术的方法可以应用在现有飞行器指挥引导系统中，采用预先规划或实时指挥的方式，引导飞行器从任意姿态开始，沿着特定方向到达移动目的地。

An intelligent guidance method of aircraft based on reward reshaping and reinforcement learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于奖励重塑强化学习的飞行器智能引导方法
本专利技术涉及飞行器指挥引导领域，特别涉及一种基于奖励重塑强化学习的飞行器智能引导方法。
技术介绍
在诸多飞行任务中，需要引导飞行器沿着特定方向到达移动目的地。如战斗机空战占位任务，需要引导飞机到达不断移动的目标后方并朝向目标；舰载机降落任务中，需要在航母航行中引导舰载机沿跑道方向到达航母；空中加油任务中，需要引导飞机到达直线航行加油机的正后方等。现有算法对引导飞行器到达移动无朝向要求的目的地以及固定位置有朝向要求的目的地有许多研究，如引导旋转翼无人机降落到移动车辆上，引导固定翼飞机沿跑道方向到达机场。对于移动有朝向要求目的地的引导，大多采用提前规划、固定区域等待等方法实现，计算效率低，无法满足实际飞行任务中实时性的要求，仍需要进一步研究。强化学习执行效率高，使用灵活，与奖励重塑方法结合后，可用在飞行器指挥引导系统中，支持按照现有模式在飞行任务前生成引导规划，也支持实时、准确给出引导指令，对战斗机空中占位、舰载机降落、空中加油等目的地移动且有朝向要求的飞行任务具有实践意义。专本文档来自技高网...

【技术保护点】
1.一种基于奖励重塑强化学习的飞行器智能引导方法，其特征在于，包括以下步骤：/n（1）根据飞行任务确定使用空域范围，设置飞行器的动态模型及可移动目的地的动态模型；/n（2）依据飞行器特性，构建基于深度强化学习的引导智能体，智能体的输入是飞行器姿态和目的地信息，输出是对飞行器的引导指令；/n（3）根据飞行任务，从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数；/n（4）在训练模式下，设置飞行器初始姿态，包括三维坐标、俯仰角、朝向角、速度、剩余油量，设置目的地三维坐标、速度和朝向角，设置训练终止条件；/n（5）利用深度强化学习的方法，训练引导智能体深度神经网络，在每个训练步...

【技术特征摘要】
1.一种基于奖励重塑强化学习的飞行器智能引导方法，其特征在于，包括以下步骤：
（1）根据飞行任务确定使用空域范围，设置飞行器的动态模型及可移动目的地的动态模型；
（2）依据飞行器特性，构建基于深度强化学习的引导智能体，智能体的输入是飞行器姿态和目的地信息，输出是对飞行器的引导指令；
（3）根据飞行任务，从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数；
（4）在训练模式下，设置飞行器初始姿态，包括三维坐标、俯仰角、朝向角、速度、剩余油量，设置目的地三维坐标、速度和朝向角，设置训练终止条件；
（5）利用深度强化学习的方法，训练引导智能体深度神经网络，在每个训练步长内，根据飞行器当前姿态，生成引导指令，根据指令质量给出重塑后的奖励值，最终引导飞行器沿特定方向到达按动态模型移动的目的地；
（6）经过海量训练后，在应用模式下，根据输入的飞行器姿态和目的地信息，准确地生成引导指令，引导飞行器沿特定方向到达移动目的地。

2.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导方法，其特征在于，步骤（1）中，目的地是移动的，具备动态模型。

3.根据权利要求1所述的基于奖励重塑强化学习的飞行器智能引导...

【专利技术属性】
技术研发人员：李辉，王壮，陈希亮，吴昭欣，吴昊霖，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人