一种基于强化学习的飞行器智能避撞方法、设备、介质技术

技术编号:23889350 阅读:50 留言:0更新日期:2020-04-22 05:50
本发明专利技术提供一种基于强化学习的飞行器智能避撞方法,包括步骤:查询状态,接收数据,计算位置,接收结果。本发明专利技术涉及电子设备与可读存储介质,用于执行一种基于强化学习的飞行器智能避撞方法。本发明专利技术通过获取航路、飞行器静态和动态数据,计算未来n个时刻点飞行器的空间位置,若飞行器之间距离达到危险阈值,则运用强化学习方法学习避撞策略,输出飞行器飞行调整指令,飞行器执行指令,更新飞行器航向,计算并返回效果评估值,通过效果评估值更新强化学习算法,使得算法在不断的迭代学习中不断优化,实现智能体自主学习与改进,自主避免碰撞的危险情况,解决多飞行器同时飞行时飞行器与飞行器之间的碰撞问题。

【技术实现步骤摘要】
一种基于强化学习的飞行器智能避撞方法、设备、介质
本专利技术涉及人工智能
,尤其涉及一种基于强化学习的飞行器智能避撞方法、设备、介质。
技术介绍
近年来我国飞行器行业发展迅速,飞行器已经被广泛地应用于军用、民用等各个领域。为了保障飞行安全,需要发展飞行器飞行避撞控制技术。现有技术中的飞行器避撞控制方法,通过获取飞行器在当前状态下与静态障碍物之间的距离,并判断所述距离是否满足预设值,进而在所述距离不满足预设值时,根据所述距离控制飞行器调节飞行高度,以避免飞行器与所述静态状态障碍物发生碰撞,仅能够避免飞行器与静态障碍物发生碰撞,不能够避免多飞行器同时飞行时飞行器与飞行器之间发生碰撞的情况。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供一种基于强化学习的飞行器智能避撞方法,解决了现有技术中的飞行器避撞控制方法不能够避免多飞行器同时飞行时飞行器与飞行器之间发生碰撞的问题。本专利技术提供一种基于强化学习的飞行器智能避撞方法,包括以下步骤:查询状态,指令智能体发出查询空间智能体内各飞行器状态的指令;接收数据,所述指令智能体接收所述空间智能体内各飞行器的规划航路、静态数据和动态数据;计算位置,所述指令智能体通过所述规划航路、静态数据和动态数据计算各飞行器的空间位置,若飞行器之间距离达到危险阈值,则通过强化学习算法学习避撞策略,输出飞行器飞行调整指令;接收结果,所述指令智能体接收所述空间智能体发送的评估结果和飞行器状态,返回奖励值,并跳转至所述计算位置步骤。进一步地,所述接收数据步骤中,所述飞行器的静态数据和动态数据包括空间内所有飞行器信息、根据飞行计划、导航信息、气象信息、自身性能信息、飞行高度层信息生成飞行器的四维计划飞行轨迹、经纬度信息、航向、飞行速度、飞行高度、剩余燃油、剩余燃油飞行时间、飞行优先级、飞机机尾号。进一步地,所述飞行计划包括飞行时间、航线、航路信息、飞行高度、目的地。进一步地,所述计算位置步骤中,所述通过强化学习算法学习避撞策略包括以下步骤;准备训练数据,收集各飞行器历史数据信息,对数据进行清洗,将数据按空间和时间维度划分;设置参数,设置强化学习算法模型和参数,设置安全规则,所述安全规则包括纵向间隔、垂直间隔、横向间隔;输入数据,将训练数据输入强化学习算法模型,输出飞行调整指令;优化模型,不断更新所述强化学习算法模型的Q值函数,直到Q函数收敛,得到最好的模型。进一步地,所述接收结果步骤中,所述奖励值包括安全和效率指标,所述安全和效率指标包括飞行效率、安全标准,奖励指标与短期执行效果和长期执行效果相关,所述短期执行效果的权重高于所述长期执行效果的权重,若所述飞行调整指令产生安全威胁,则产生惩罚指标,所述避撞策略的优劣取决于长期执行所述避撞策略后得到的累积奖赏,所述避撞策略在训练的过程中经过若干次迭代和训练后,当代表奖赏的Q值收敛到最大值时不断得到优化。进一步地,所述接收结果步骤中,通过安全检查规则引擎按照现有的生产安全标准制定不同区域和飞行阶段飞行器安全间隔规则,计算所述奖励值的安全指标,以及对所述飞行调整指令进行安全标准检查,当所述飞行调整指令通过安全检查时,将所述飞行调整指令作为生产指令输出。一种基于强化学习的飞行器智能避撞方法,包括以下步骤:接收指令,空间智能体接收指令智能体发送的查询指令;发送数据,所述空间智能体将当前空间内各飞行器的规划航路、静态数据和动态数据发送至所述指令智能体;评估效果,所述空间智能体获取空间内飞行器的四维飞行轨迹,对执行飞行调整指令后的飞行器飞行状态进行评估,将评估结果和飞行器状态返回至所述指令智能体。一种基于强化学习的飞行器智能避撞方法,包括以下步骤:规划航路,初始化环境,各飞行器根据飞行计划规划航路;执行指令,飞行器执行飞行调整指令,更新航向、航速、高度层。一种电子设备,包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行上述一种基于强化学习的飞行器智能避撞方法。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述一种基于强化学习的飞行器智能避撞方法。相比现有技术,本专利技术的有益效果在于:本专利技术提供一种基于强化学习的飞行器智能避撞方法,包括以下步骤:查询状态,指令智能体发出查询空间智能体内各飞行器状态的指令;接收数据,指令智能体接收空间智能体内各飞行器的规划航路、静态数据和动态数据;计算位置,指令智能体计算各飞行器的空间位置,若飞行器之间距离达到危险阈值,则通过强化学习算法学习避撞策略,输出飞行器飞行调整指令;接收结果,指令智能体接收空间智能体发送的评估结果和飞行器状态,返回奖励值,并跳转至计算位置步骤。本专利技术涉及电子设备与可读存储介质,用于执行一种基于强化学习的飞行器智能避撞方法。本专利技术通过获取航路、飞行器静态和动态数据,计算未来n个时刻点飞行器的空间位置,若飞行器之间距离达到危险阈值,则运用强化学习方法学习避撞策略,输出飞行器飞行调整指令,飞行器执行指令,更新飞行器航向,计算并返回效果评估值,通过效果评估值更新强化学习算法,使得算法在不断的迭代学习中不断优化,实现智能体自主学习与改进,自主避免碰撞的危险情况,解决多飞行器同时飞行时飞行器与飞行器之间的碰撞问题。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。本专利技术的具体实施方式由以下实施例及其附图详细给出。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的一种基于强化学习的飞行器智能避撞方法流程图;图2为本专利技术实施例的强化学习算法学习避撞策略流程图;图3为本专利技术实施例的智能体执行逻辑示意图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。一种基于强化学习的飞行器智能避撞方法,如图1所示,包括以下步骤:规划航路,初始化环境,各飞行器根据飞行计划规划航路;飞行器可以是民航飞机、通航飞机或无人机。飞行器根据飞行计划、出发城市、目的地城市、导航信息、航路信息、气象信息、自身性能信息、飞行高度层信息生成飞行器的四维计划飞行轨迹。它能够接收执行管控指令信息,改变飞行的航向、航速、高度层,输出多个梯时间后的飞行位置和航向。查询状态,指令智能体发出查询空间智能体内各飞行器状态的指令;指令智能体可以获取空间智能体的内飞行器信息,同时负责向飞行器下达飞行指令,指令智能体将飞行指令发给飞行器进行接收和执行。...

【技术保护点】
1.一种基于强化学习的飞行器智能避撞方法,其特征在于包括以下步骤:/n查询状态,指令智能体发出查询空间智能体内各飞行器状态的指令;/n接收数据,所述指令智能体接收所述空间智能体内各飞行器的规划航路、静态数据和动态数据;/n计算位置,所述指令智能体通过所述规划航路、静态数据和动态数据计算各飞行器的空间位置,若飞行器之间距离达到危险阈值,则通过强化学习算法学习避撞策略,输出飞行器飞行调整指令;/n接收结果,所述指令智能体接收所述空间智能体发送的评估结果和飞行器状态,返回奖励值,并跳转至所述计算位置步骤。/n

【技术特征摘要】
1.一种基于强化学习的飞行器智能避撞方法,其特征在于包括以下步骤:
查询状态,指令智能体发出查询空间智能体内各飞行器状态的指令;
接收数据,所述指令智能体接收所述空间智能体内各飞行器的规划航路、静态数据和动态数据;
计算位置,所述指令智能体通过所述规划航路、静态数据和动态数据计算各飞行器的空间位置,若飞行器之间距离达到危险阈值,则通过强化学习算法学习避撞策略,输出飞行器飞行调整指令;
接收结果,所述指令智能体接收所述空间智能体发送的评估结果和飞行器状态,返回奖励值,并跳转至所述计算位置步骤。


2.如权利要求1所述的一种基于强化学习的飞行器智能避撞方法,其特征在于:所述接收数据步骤中,所述飞行器的静态数据和动态数据包括空间内所有飞行器信息、根据飞行计划、导航信息、气象信息、自身性能信息、飞行高度层信息生成飞行器的四维计划飞行轨迹、经纬度信息、航向、飞行速度、飞行高度、剩余燃油、剩余燃油飞行时间、飞行优先级、飞机机尾号。


3.如权利要求2所述的一种基于强化学习的飞行器智能避撞方法,其特征在于:所述飞行计划包括飞行时间、航线、航路信息、飞行高度、目的地。


4.如权利要求1所述的一种基于强化学习的飞行器智能避撞方法,其特征在于:所述计算位置步骤中,所述通过强化学习算法学习避撞策略包括以下步骤;
准备训练数据,收集各飞行器历史数据信息,对数据进行清洗,将数据按空间和时间维度划分;
设置参数,设置强化学习算法模型和参数,设置安全规则,所述安全规则包括纵向间隔、垂直间隔、横向间隔;
输入数据,将训练数据输入强化学习算法模型,输出飞行调整指令;
优化模型,不断更新所述强化学习算法模型的Q值函数,直到Q函数收敛,得到最好的模型。


5.如权利要求4所述的一种基于强化学习的飞行器智能避撞方法,其特征在于:所述接收结果步骤中,所述奖励值包括安全和效率指标,所述安全和效率指标包括...

【专利技术属性】
技术研发人员:曾晖
申请(专利权)人:浩亚信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1