当前位置: 首页 > 专利查询>南京大学专利>正文

基于深度学习的无人机虚实结合强化学习环境增强方法技术

技术编号:41287630 阅读:45 留言:0更新日期:2024-05-11 09:36
本发明专利技术公开一种基于深度学习的无人机虚实结合强化学习环境增强方法,包括:预训练模型导出强化学习的决策单元。虚实结合时空环境增强,使用预训练的决策单元进行若干轮真机飞行的验证;通过平均时延曲线导出用作无人机虚拟环境中单步决策的时间间隔的补偿值,进行时间上的环境增强;利用误差模型进行空间上的环境增强。增强环境再训练,使用时空增强的环境再次对无人机导航进行训练,进行真机飞行,并比对虚拟轨迹和真实轨迹的差异。该方法充分利用了虚实结合环境增强方法,具有设计简单、鲁棒性较佳以及构建出的强化学习环境具有仿真度高的优点,其训练出来的策略具有泛化能力强、适应性强等特点,能直接应用在真实无人机编队、导航等任务上。

【技术实现步骤摘要】

本专利技术涉及一种基于深度学习的无人机虚实结合强化学习环境增强方法,属于软件物理仿真。


技术介绍

1、强化学习算法经常运用于无人机集群导航、编队等任务的执行上,在该虚拟环境中,通常通过控制无人机的三轴速度让其按照强化学习的策略飞出指定的曲线。在虚拟环境构建时,需要要求其尽量逼近真实世界中无人机的运动学模型和动力学模型。虚实结合指首先通过理想运动学模型构建无人机强化学习任务,然后在虚拟环境中进行训练得到预训练的策略,之后进行真机飞行并收集真机飞行数据,接着通过对真机飞行数据进行深度学习来增强时间和空间环境,最后使用时空增强的环境再训练得到更符合物理世界的强化学习策略。其中,时间上的环境增强即确保训练环境中的指令时间间隔和真实世界中的指令时间间隔相近;空间上的环境增强即确保训练环境中的无人机转角大小和真实世界中的无人机转角大小相近。构建较为真实的时空增强环境,可以提升强化学习算法的泛化能力,同时可以减小无人机指令执行结果在虚拟环境和真实环境下的误差,最终让真实世界中的无人机能够飞出和虚拟环境中尽可能相近的曲线。

2、现有的无人机时空增强环境建模通常本文档来自技高网...

【技术保护点】

1.一种基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,使用虚实结合的方式进行时间和空间上的环境增强,包括强化学习预训练模型、虚实结合时空环境增强、和增强环境再训练三个环节;

2.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,强化学习的预训练的实现过程为:

3.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,虚实结合时空环境增强包括如下步骤:

4.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,增强环境再训练;构建出的时间和空间上的增强...

【技术特征摘要】

1.一种基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,使用虚实结合的方式进行时间和空间上的环境增强,包括强化学习预训练模型、虚实结合时空环境增强、和增强环境再训练三个环节;

2.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,强化学习的预训练的实现过程为:

3.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,虚实结合时空环境增强包括如下步骤:

4.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,增强环境再训练;构建出的时间和空间上的增强环境之后,重新进行强化学习训练;导出决策单元,进行真机飞行实验,并记录真机飞行的轨迹trajr;同时在虚拟环境中给予无人机相同的配置,并记录虚拟飞行的轨迹trajm;在真机飞行时,除了决策模型的替换,其余的设置也应当保持不变,即在无人即实际飞行时,下达的真机飞行指...

【专利技术属性】
技术研发人员:魏建安汪亮陶先平胡昊吴海军
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1