【技术实现步骤摘要】
本专利技术涉及一种基于深度学习的无人机虚实结合强化学习环境增强方法,属于软件物理仿真。
技术介绍
1、强化学习算法经常运用于无人机集群导航、编队等任务的执行上,在该虚拟环境中,通常通过控制无人机的三轴速度让其按照强化学习的策略飞出指定的曲线。在虚拟环境构建时,需要要求其尽量逼近真实世界中无人机的运动学模型和动力学模型。虚实结合指首先通过理想运动学模型构建无人机强化学习任务,然后在虚拟环境中进行训练得到预训练的策略,之后进行真机飞行并收集真机飞行数据,接着通过对真机飞行数据进行深度学习来增强时间和空间环境,最后使用时空增强的环境再训练得到更符合物理世界的强化学习策略。其中,时间上的环境增强即确保训练环境中的指令时间间隔和真实世界中的指令时间间隔相近;空间上的环境增强即确保训练环境中的无人机转角大小和真实世界中的无人机转角大小相近。构建较为真实的时空增强环境,可以提升强化学习算法的泛化能力,同时可以减小无人机指令执行结果在虚拟环境和真实环境下的误差,最终让真实世界中的无人机能够飞出和虚拟环境中尽可能相近的曲线。
2、现有的无人机
...【技术保护点】
1.一种基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,使用虚实结合的方式进行时间和空间上的环境增强,包括强化学习预训练模型、虚实结合时空环境增强、和增强环境再训练三个环节;
2.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,强化学习的预训练的实现过程为:
3.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,虚实结合时空环境增强包括如下步骤:
4.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,增强环境再训练;构建出
...【技术特征摘要】
1.一种基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,使用虚实结合的方式进行时间和空间上的环境增强,包括强化学习预训练模型、虚实结合时空环境增强、和增强环境再训练三个环节;
2.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,强化学习的预训练的实现过程为:
3.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,虚实结合时空环境增强包括如下步骤:
4.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法,其特征在于,增强环境再训练;构建出的时间和空间上的增强环境之后,重新进行强化学习训练;导出决策单元,进行真机飞行实验,并记录真机飞行的轨迹trajr;同时在虚拟环境中给予无人机相同的配置,并记录虚拟飞行的轨迹trajm;在真机飞行时,除了决策模型的替换,其余的设置也应当保持不变,即在无人即实际飞行时,下达的真机飞行指...
【专利技术属性】
技术研发人员:魏建安,汪亮,陶先平,胡昊,吴海军,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。