一种基于强化学习PPO算法的无人机目标跟踪控制方法技术

技术编号：25395015 阅读：21 留言：0更新日期：2020-08-25 23:00

本发明专利技术公开了一种基于强化学习PPO算法的无人机目标跟踪控制方法，包括无人机目标跟踪典型环境建模、训练数据归一化预处理、基于欧式距离的奖励函数设计、针对性深度神经网络结构设计、基于PPO算法的控制器训练与无人机目标跟踪控制器使用。本发明专利技术的方法采用一体化控制器替代了传统的内外环控制器，同时具有较好的鲁棒性能与较小计算量的优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习PPO算法的无人机目标跟踪控制方法
本专利技术属于无人机控制
，尤其涉及一种基于强化学习PPO算法的无人机目标跟踪控制方法。
技术介绍
随着无人机技术的发展，无人机被应用在各种各样的场所，使用领域不断扩宽。无论是在军事领域还是民用领域，常见的一种无人机使用方式是使用无人机跟踪指定的目标。例如，在军事战争中使用无人机跟踪敌方行进中的坦克，在恰当时刻对其打击；在民用领域，使用无人机对指定的目标跟踪航拍或是使无人机飞回指定目标位置等。在这些场景中都是希望无人机能够在飞行过程中跟踪指定的任务目标。无人机通过自身携带的传感器，例如图像、雷达等，或者无线通信的方式获取任务目标的位置信息，并以此为方向持续的跟踪目标，使其不脱离自身的监控范围。无人机平台使用的传统目标跟踪控制方法为：获取无人机平台当前的位置信息以及跟踪目标的位置信息，以此为基础通过优化算法解算出无人机跟踪目标的航路轨迹，航路轨迹由一系列的无人机航点组成。无人机按照航点序列依次从前一个航点飞向下一个航点，这一部分称为无人机的外环控制。无人机从一个航点飞向临近航点时需要解算当前时刻无人机的飞行速度和偏航角速度并响应当前的速度指令，同时需要在飞行过程中保持无人机的滚转角与俯仰角的稳定，这一部分称为无人机的内环控制部分。传统控制算法将无人机目标跟踪的过程分为了外环和内环两部分，特别的，当无人机的跟踪目标处于运动状态时，在无人机外环部分，需要每时刻重新调用优化算法规划新的航路轨迹，若是采用复杂的优化算法时，每时刻的航路重规划需要耗费较多的计算资源...

【技术保护点】
1.一种基于强化学习PPO算法的无人机目标跟踪控制方法，其特征在于，包括以下步骤：/nS1：无人机目标跟踪过程的典型环境建模；/n针对无人机目标跟踪，无人机本身与被跟踪目标相对于整个动态环境视为质点，同时无人机跟踪目标的过程与纵向空间无关，无人机与跟踪目标在空间中的相对位置能够投影到二维平面，故无人机目标跟踪过程的典型环境模型简化成如下典型形式：/n记无人机的质量为M，控制机构作用于无人机上的直接控制量分别记为F

【技术特征摘要】
1.一种基于强化学习PPO算法的无人机目标跟踪控制方法，其特征在于，包括以下步骤：
S1：无人机目标跟踪过程的典型环境建模；
针对无人机目标跟踪，无人机本身与被跟踪目标相对于整个动态环境视为质点，同时无人机跟踪目标的过程与纵向空间无关，无人机与跟踪目标在空间中的相对位置能够投影到二维平面，故无人机目标跟踪过程的典型环境模型简化成如下典型形式：
记无人机的质量为M，控制机构作用于无人机上的直接控制量分别记为Fx与Fy，其中，Fx为控制机构对无人机产生的前向控制力，Fy为控制机构对无人机产生的侧向控制力；无人机在控制机构的作用下能够在二位平面内任意运动，无人机运动的数学模型为：
ax＝Fx/M，ay＝Fy/M，

其中，坐标(x,y)表示无人机在环境中的位置，vx为无人机的前向速度，vy为无人机的侧向速度，ax为无人机的前向加速度，ay为无人机的侧向加速度，无人机的合速度为跟踪目标点的坐标为(xe,ye)，无人机通过自身的传感器实时探测跟踪目标点的位置坐标；环境模型中限定无人机受到的前向力Fx与侧向力Fy存在最大值，分别记为Fx_max和Fy_max，无人机能够保持的最大飞行速度为vmax；
S2：训练数据归一化预处理；
S2-1：典型环境模型优化；
将目标的随机运动轨迹看成一个时间序列的位置坐标点，无人机在每时刻能够追踪当前目标所处的位置，即能够在整个时间序列上完成对目标点位置跟踪，故在使用PPO算法对无人机进行目标跟踪训练时，只训练无人机对静止目标的跟踪，将训练好的控制器直接应用于随机运动的目标跟踪；因此，将典型的无人机目标跟踪问题环境模型优化为如下形式：将环境模型限定在总面积为4l2的正方形区域内，其中，l为正方形区域边长的一半，此区域设定为无人机与目标的运动区域，训练过程中目标始终保持静止状态处于区域的中心位置，记为环境模型的坐标原点；训练初始时刻，无人机处于区域内的任意位置；
S2-2：数据归一化；
根据环境模型，记无人机状态量为s＝[ΔxΔyvxvy]，其中，Δx和Δy为无人机与目标在平面投影上的相对位置，有Δx＝xe-x＝-x，Δy＝ye-y＝-y；记无人机控制量为a，表示为a＝[FxFy]；
分别对无人机状态量和无人机控制量除以上限值，使其中每个元素在进入算法训练之前的值域为[-11]，归一化处理后的无人机状态量记为s_norm，且归一化处理后的无人机控制量记为a_norm，且其中，vmax为无人机能够保持的最大飞行速度，Fx_max为控制机构能够为无人机施加的最大前向作用力，Fy_max为控制机构能够为无人机施加的最大侧向作用力；
无人机每时刻的采样数据经过归一化处理后被算法程序收集，用于无人机目标跟踪控制器的训练过程；
S3：设计基于欧式距离的奖励函数；
训练的目标是使无人机能够朝向目标点运动，无人机与目标点之间距离越小，获得的奖励越高，为了使无人机在目标跟踪过程中平稳追踪目标，无人机的速度也作为奖励函数设计的一部分，设计针对无人机目标跟踪问题强化学习算法中使用的奖励函数为其中，r为每时刻无人机得到的奖励值，v为无人机的合速度；
记训练初期无人机能够获取到奖...

【专利技术属性】
技术研发人员：蔡志浩，李明君，赵江，王英勋，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人