基于深度学习的无人机虚实结合强化学习环境增强方法技术

技术编号：41287630 阅读：6 留言：0更新日期：2024-05-11 09:36

本发明专利技术公开一种基于深度学习的无人机虚实结合强化学习环境增强方法，包括：预训练模型导出强化学习的决策单元。虚实结合时空环境增强，使用预训练的决策单元进行若干轮真机飞行的验证；通过平均时延曲线导出用作无人机虚拟环境中单步决策的时间间隔的补偿值，进行时间上的环境增强；利用误差模型进行空间上的环境增强。增强环境再训练，使用时空增强的环境再次对无人机导航进行训练，进行真机飞行，并比对虚拟轨迹和真实轨迹的差异。该方法充分利用了虚实结合环境增强方法，具有设计简单、鲁棒性较佳以及构建出的强化学习环境具有仿真度高的优点，其训练出来的策略具有泛化能力强、适应性强等特点，能直接应用在真实无人机编队、导航等任务上。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于深度学习的无人机虚实结合强化学习环境增强方法，属于软件物理仿真。

技术介绍

1、强化学习算法经常运用于无人机集群导航、编队等任务的执行上，在该虚拟环境中，通常通过控制无人机的三轴速度让其按照强化学习的策略飞出指定的曲线。在虚拟环境构建时，需要要求其尽量逼近真实世界中无人机的运动学模型和动力学模型。虚实结合指首先通过理想运动学模型构建无人机强化学习任务，然后在虚拟环境中进行训练得到预训练的策略，之后进行真机飞行并收集真机飞行数据，接着通过对真机飞行数据进行深度学习来增强时间和空间环境，最后使用时空增强的环境再训练得到更符合物理世界的强化学习策略。其中，时间上的环境增强即确保训练环境中的指令时间间隔和真实世界中的指令时间间隔相近；空间上的环境增强即确保训练环境中的无人机转角大小和真实世界中的无人机转角大小相近。构建较为真实的时空增强环境，可以提升强化学习算法的泛化能力，同时可以减小无人机指令执行结果在虚拟环境和真实环境下的误差，最终让真实世界中的无人机能够飞出和虚拟环境中尽可能相近的曲线。

2、现有的无人机时空增强环境建模通常依赖于更为底层的动力学模型，其运算速度会受到处理器的数量和性能的制约，且泛化能力较差，对于不同型号的无人机需要构建不同的物理模型，也难以精确反应无人机在模拟环境和真实环境中的时间、空间误差。

技术实现思路

1、专利技术目的：针对现有技术中存在的问题与不足，本专利技术提供一种通用的基于深度学习的四旋翼无人机虚实结合强化学习环境增强方

2、技术方案：一种基于深度学习的无人机虚实结合强化学习环境增强方法，使用虚实结合的方式进行时间和空间上的环境增强，包括强化学习预训练模型、虚实结合时空环境增强、和增强环境再训练三个环节。

3、强化学习预训练模型指使用理想运动模型下的强化学习虚拟环境对无人机导航进行预训练，训练完成后导出强化学习的决策单元。

4、虚实结合时空环境增强，指首先使用预训练的决策单元进行若干轮真机飞行的验证，在验证的过程中，收集飞行数据，无人机每做一次强化学习的决策，就记录一次无人机的位置、转角、动作、时间戳和步数序号；通过对日志中无人机轨迹的连续性判断，剔除无法使用的数据，可以筛选出有效的飞行日志；然后利用飞行日志中每条记录之间的时间戳之差，可以计算出平均时延曲线，将此曲线导出用作无人机虚拟环境中单步决策的时间间隔的补偿值，以达到时间上的环境增强；接着将完整轨迹划分为若干个序列，将每个序列作为训练数据，使用深度神经网络计算理论转角和实际转角的误差模型，最后将此模型作为理论转角的补偿用于计算虚拟环境中无人机的实际转角，以达到空间上的环境增强。

5、增强环境再训练指使用时空增强的环境再次对无人机导航进行训练，训练完成后再度进行真机飞行，并比对虚拟轨迹和真实轨迹的差异用于评估方法结果。

6、该方法充分利用了虚实结合环境增强方法，增强了强化学习理论模型与现实应用的贴合度，具有设计简单、鲁棒性较佳以及构建出的强化学习环境具有仿真度高的优点，其训练出来的策略具有泛化能力强、适应性强等特点，能直接应用在真实无人机编队、导航等任务上。

7、上述的方法具体包括如下步骤：

8、步骤1：此步骤进行强化学习的预训练。构建无人机飞行相关的强化学习任务，无人机采用速度控制，使用理想的运动学模型，即无人机的运动完全遵循后术的数学公式，不会受到任何外力干扰：无人机在二维平面的合速度保持不变，为vxy，在t时刻，无人机的角度θt，x轴的速度为vx＝vxy*cosθt，y轴的速度为vy＝vxy*sinθt。强化学习的决策网络输出无人机的动作，记为at，范围在[-1,1]之间，它直接表示无人机的角速度，单位为rad/s。无人机的决策间隔大小为δt，无人机在下一时刻的角度由理想的线性公式计算，即θt+1＝θt+δt*at，依照同样的方法计算下一时刻无人机的坐标xt+1＝xt+δt*vx，yt+1＝yt+δt*vy。强化学习预训练共训练k轮，每轮中无人机一共执行s步。

9、步骤2：预训练结束后，进行真机飞行，真机飞行的总轮数为m，此步中m的值越大，那么后续虚拟飞行的结果也就越精确。记录xt,yt,zt,t,s，其中t表示真实的时间戳，zt表示无人机的高度，表示由飞控得到的真实无人机转角大小，s表示时间步的序号，即无人机位于第s次决策。无人机第i次飞行的日志记为traji。

10、步骤3：对无人机的飞行日志进行数据清洗，剔除无法使用的数据，无人机将自身物理状态回传至地面站时，会受到网络波动等因素的影响，导致日志数据不连续或发生错误，此外，无人机在飞行途中也可能会受到诸如风力等外界因素的影响，导致日志数据不准确，因此需要进行飞行日志的清洗。该步骤提出了飞行日志清洗算法，该算法能够检查飞行日志记录是否有记录缺失、飞行故障，针对此两种情况，该飞行日志均应被丢弃或应被修补。清洗后的可用的日记集合记为t。

11、上述的步骤3具体包括以下子步骤：

12、步骤3.1：检查日志是否有记录缺失，使用脚本遍历所有日志文件，从头到尾检查每个文件的每条目录的s值，是否为从1开始连续递增的整数值，如果不是，则说明日志有缺失，那么应当舍弃该日志文件。

13、步骤3.2：检查日志中的数据是否存在飞行故障，为每次飞行日志traji绘制无人机的三维飞行路径，即将日志中的xt、yt和zt连接为三维的折线图。若轨迹在开头和结尾出现了zt值的突增以及突降，则说明无人机位于起飞或者降落的阶段，此时无人机不受强化学习决策单元的控制，应当在该日志文件中删除这些条目，同时平移时间步s，让其从1开始。若飞行轨迹中间出现了突变，即无人机的轨迹出现跳变点，例如突然上大幅度上升、下降或急转弯，使得轨迹不再光滑，则说明无人机坠机、失控、动力不足或受其他外力影响，此时该日志文件也应当不被使用。

14、步骤4：将步骤3清洗后的日志用作时间上的环境增强数据，对于第i次飞行的第s步，其时间戳记为ti,s，那么该步的真实时间间隔为δti,s＝ti,s-ti,s-1。由于无人机在执行相同的任务，因此我们为每一步都计算虚拟环境中的时间间隔，即其中的s表示第s步，δti,s表示可用日志中的第i条轨迹的第s步的时间间隔(每份日志包含一条飞行轨迹)，|t|表示可用的日志总数，该公式实际上计算了所有可用日志中的第s步的时间间隔的平均值。由此时间上环境增强的角度修正计算公式为θt+1＝θt+delay(t)*at，两轴的坐标修正计算公式为xt+1＝xt+delay(t)*vx和yt+1＝yt+delay(t)*vy。之后将delay(s)用作时间增强环境的单步时间间隔用于替换δt。

15、步骤5：将步骤3清洗后的日志用作空间上的环境增强数据，对于第i次飞行，将日志的条目按照每l条为一组，使用滑动窗口进行切片。对于每个切片，由于日志记本文档来自技高网...

【技术保护点】

1.一种基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，使用虚实结合的方式进行时间和空间上的环境增强，包括强化学习预训练模型、虚实结合时空环境增强、和增强环境再训练三个环节；

2.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，强化学习的预训练的实现过程为：

3.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，虚实结合时空环境增强包括如下步骤：

4.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，增强环境再训练；构建出的时间和空间上的增强环境之后，重新进行强化学习训练；导出决策单元，进行真机飞行实验，并记录真机飞行的轨迹Trajr；同时在虚拟环境中给予无人机相同的配置，并记录虚拟飞行的轨迹Trajm；在真机飞行时，除了决策模型的替换，其余的设置也应当保持不变，即在无人即实际飞行时，下达的真机飞行指令的间隔时间仍为原来的Δt；真机飞行的轨迹和虚拟飞行轨迹的差异使用均方误差，即当误差值小于阈值h时，说明时空环境增强结果良好，否则需要重

5.根据权利要求3所述的基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，对无人机的飞行日志进行数据清洗，剔除无法使用的数据；

6.根据权利要求3所述的基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，所述步骤5具体包括以下子步骤：

7.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的基于深度学习的无人机虚实结合强化学习环境增强方法。

8.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-6中任一项所述的基于深度学习的无人机虚实结合强化学习环境增强方法的计算机程。

...

【技术特征摘要】

2.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，强化学习的预训练的实现过程为：

3.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，虚实结合时空环境增强包括如下步骤：

4.根据权利要求1所述的基于深度学习的无人机虚实结合强化学习环境增强方法，其特征在于，增强环境再训练；构建出的时间和空间上的增强环境之后，重新进行强化学习训练；导出决策单元，进行真机飞行实验，并记录真机飞行的轨迹trajr；同时在虚拟环境中给予无人机相同的配置，并记录虚拟飞行的轨迹trajm；在真机飞行时，除了决策模型的替换，其余的设置也应当保持不变，即在无人即实际飞行时，下达的真机飞行指...

【专利技术属性】
技术研发人员：魏建安，汪亮，陶先平，胡昊，吴海军，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人