一种基于强化学习PPO算法的无人机目标跟踪控制方法技术

技术编号:25395015 阅读:21 留言:0更新日期:2020-08-25 23:00
本发明专利技术公开了一种基于强化学习PPO算法的无人机目标跟踪控制方法,包括无人机目标跟踪典型环境建模、训练数据归一化预处理、基于欧式距离的奖励函数设计、针对性深度神经网络结构设计、基于PPO算法的控制器训练与无人机目标跟踪控制器使用。本发明专利技术的方法采用一体化控制器替代了传统的内外环控制器,同时具有较好的鲁棒性能与较小计算量的优点。

【技术实现步骤摘要】
一种基于强化学习PPO算法的无人机目标跟踪控制方法
本专利技术属于无人机控制
,尤其涉及一种基于强化学习PPO算法的无人机目标跟踪控制方法。
技术介绍
随着无人机技术的发展,无人机被应用在各种各样的场所,使用领域不断扩宽。无论是在军事领域还是民用领域,常见的一种无人机使用方式是使用无人机跟踪指定的目标。例如,在军事战争中使用无人机跟踪敌方行进中的坦克,在恰当时刻对其打击;在民用领域,使用无人机对指定的目标跟踪航拍或是使无人机飞回指定目标位置等。在这些场景中都是希望无人机能够在飞行过程中跟踪指定的任务目标。无人机通过自身携带的传感器,例如图像、雷达等,或者无线通信的方式获取任务目标的位置信息,并以此为方向持续的跟踪目标,使其不脱离自身的监控范围。无人机平台使用的传统目标跟踪控制方法为:获取无人机平台当前的位置信息以及跟踪目标的位置信息,以此为基础通过优化算法解算出无人机跟踪目标的航路轨迹,航路轨迹由一系列的无人机航点组成。无人机按照航点序列依次从前一个航点飞向下一个航点,这一部分称为无人机的外环控制。无人机从一个航点飞向临近航点时需要解算当前时刻无人机的飞行速度和偏航角速度并响应当前的速度指令,同时需要在飞行过程中保持无人机的滚转角与俯仰角的稳定,这一部分称为无人机的内环控制部分。传统控制算法将无人机目标跟踪的过程分为了外环和内环两部分,特别的,当无人机的跟踪目标处于运动状态时,在无人机外环部分,需要每时刻重新调用优化算法规划新的航路轨迹,若是采用复杂的优化算法时,每时刻的航路重规划需要耗费较多的计算资源。强化学习是机器学习的一个分支。机器学习是以知识的自动获取和产生为研究目标,是人工智能的核心问题之一。机器学习与统计学、心理学、机械学等许多学科都有交叉。其中,心理学与机器学习的交叉综合直接促进了强化学习理论与算法的产生和发展。强化学习算法理论的形成可以追溯到上个世界七八十年代,几十年来强化学习算法一直在不断的更新迭代。与常见的监督学习、无监督学习不同,强化学习的本质是一种以环境反馈作为输入的、适应环境的机器学习方法。它模仿了自然界中人类或动物学习的基本途径,通过与环境不断交互和试错的过程,利用评价性的反馈信号来优化所采取的行为决策。在强化学习中有两个主要的组成部分,智能体(Agent)和环境(Environment),智能体是指采用强化学习进行学习的事物本身,可以通过学习而自动获取有价值信息的计算机(或者含有计算机的机器),环境是指智能体所依赖并活动、交互的世界。在每一次智能体与环境相交互的过程中,智能体会观察当前时刻自身在环境中所呈现的状态(State),或者部分状态,并以此为依据来决定自身在当前时刻所应该采取的行为(Action)。同时,在每一次智能体与环境交互的过程中,智能体会从环境中接受到一个反馈信息,这里称为奖励(Reward)。奖励是用一个具体的数值来表示,它会告诉智能体,当前时刻其在环境的状态表现是有多好或者有多糟糕。智能体的学习目标是为了获得最大的累计奖励,这里称为回报(Return)。强化学习就是一种在智能体与环境不断的信息交互中使得智能体学习如何采取行为来达到它目标的一种方法。PPO算法是一种基于策略的强化学习算法,为了具体的说明PPO算法,做出符号设定如表1所示。表1PPO算法符号说明表强化学习算法的本质是使得智能体学习到最优的策略,最大化一条完整轨迹上所能获得的累计奖励,即回报。一种回报的形式可以是有限时域内的无折扣回报:形象来说,策略相当于智能体的大脑,控制智能体的行为,其本质就是智能体的控制器。策略本质上是一组带参数的可计算函数,最常用的是带有权重参数和偏置参数的神经网络。策略的输出是智能体的行为,通过梯度下降算法来调整策略的参数,以此来改变智能体采取的行为。在PPO算法中,智能体在学习过程中采取的为随机策略,通常用符号θ来表示策略中的参数,表示为:at~πθ(·|st),强化学习的目的是为了得到一个最大化期望回报的策略,期望回报表示为:其中,τ表示一段智能体以πθ为使用策略,与环境进行交互的过程,可以状态-行为的序列来表示:s0,a0,…,sT-1,aT-1,sT,...方便推导过程,认为τ代表一段有限时间域内的状态-行为序列,可以计算这段时间内智能体所能获得的回报为:通过策略梯度下降的方法优化最终的目标J(πθ),每次参数更新时的迭代过程为:即为当前策略所表现的效果关于策略参数的梯度,该算法主要是通过计算这个策略梯度来完成策略的优化过程,因此被称为策略梯度算法。策略梯度法的关键在于策略梯度该如何数值性的计算。经过推导得到策略梯度计算公式:在PPO算法中,为了使得每次更新的新策略与更新之前的旧策略不会出现差异太大而导致训练过程发散的现象,对策略的更新加入一定的约束条件,表示为:智能体采用新策略所获得的期望回报相较于采用旧策略活得的期望回报,性能的提高不期望超过一定的阈值,称为裁剪值,用ε表示(裁剪值通常取为0.2)。由于当策略还未跟新时,无法计算新策略的期望回报值,引入重要性采样的方法,使用旧策略的分布来估算新策略的分布,计算更新后的策略期望回报值为:加入裁剪限制后,新策略的期望回报如下所示,被限制在一定的范围之内:通过梯度下降的方式求解策略网络的参数θ来获取限制范围内最大的以此完成策略网络的更新。在计算迭代策略网络的时候需要计算优势函数,需要通过状态价值函数来间接计算。为了减小数据的采样,提高算法的性能,额外使用一个神经网络来估算状态价值函数。同样采用梯度下降的方法对该网络进行更新迭代,使其拟合真实的状态价值函数,算法的伪代码如表2所示。表2ProximalPolicyOptimization–Clip算法的伪代码
技术实现思路
针对无人机跟踪指定目标的控制问题,本专利技术提出一种基于强化学习PPO算法的无人机目标跟踪控制方法,采用一体化控制器替代了传统的内外环控制器,同时具有较好的鲁棒性能与较小计算量的特点。本专利技术的具体技术方案如下:一种基于强化学习PPO算法的无人机目标跟踪控制方法,其特征在于,包括以下步骤:S1:无人机目标跟踪过程的典型环境建模;针对无人机目标跟踪,无人机本身与被跟踪目标相对于整个动态环境视为质点,同时无人机跟踪目标的过程与纵向空间无关,无人机与跟踪目标在空间中的相对位置能够投影到二维平面,故无人机目标跟踪过程的典型环境模型简化成如下典型形式:记无人机的质量为M,控制机构作用于无人机上的直接控制量分别记为Fx与Fy,其中,Fx为控制机构对无人机产生的前向控制力,Fy为控制机构对无人机产生的侧向控制力;无人机在控制机构的作用下能够在二位平面内任意运动,无人机运动的数学模型为:ax=Fx/M,ay=Fy/M,其中,坐标(x,y)表示无人机在环境中的位置,vx为无人机的前向速度本文档来自技高网
...

【技术保护点】
1.一种基于强化学习PPO算法的无人机目标跟踪控制方法,其特征在于,包括以下步骤:/nS1:无人机目标跟踪过程的典型环境建模;/n针对无人机目标跟踪,无人机本身与被跟踪目标相对于整个动态环境视为质点,同时无人机跟踪目标的过程与纵向空间无关,无人机与跟踪目标在空间中的相对位置能够投影到二维平面,故无人机目标跟踪过程的典型环境模型简化成如下典型形式:/n记无人机的质量为M,控制机构作用于无人机上的直接控制量分别记为F

【技术特征摘要】
1.一种基于强化学习PPO算法的无人机目标跟踪控制方法,其特征在于,包括以下步骤:
S1:无人机目标跟踪过程的典型环境建模;
针对无人机目标跟踪,无人机本身与被跟踪目标相对于整个动态环境视为质点,同时无人机跟踪目标的过程与纵向空间无关,无人机与跟踪目标在空间中的相对位置能够投影到二维平面,故无人机目标跟踪过程的典型环境模型简化成如下典型形式:
记无人机的质量为M,控制机构作用于无人机上的直接控制量分别记为Fx与Fy,其中,Fx为控制机构对无人机产生的前向控制力,Fy为控制机构对无人机产生的侧向控制力;无人机在控制机构的作用下能够在二位平面内任意运动,无人机运动的数学模型为:
ax=Fx/M,ay=Fy/M,






其中,坐标(x,y)表示无人机在环境中的位置,vx为无人机的前向速度,vy为无人机的侧向速度,ax为无人机的前向加速度,ay为无人机的侧向加速度,无人机的合速度为跟踪目标点的坐标为(xe,ye),无人机通过自身的传感器实时探测跟踪目标点的位置坐标;环境模型中限定无人机受到的前向力Fx与侧向力Fy存在最大值,分别记为Fx_max和Fy_max,无人机能够保持的最大飞行速度为vmax;
S2:训练数据归一化预处理;
S2-1:典型环境模型优化;
将目标的随机运动轨迹看成一个时间序列的位置坐标点,无人机在每时刻能够追踪当前目标所处的位置,即能够在整个时间序列上完成对目标点位置跟踪,故在使用PPO算法对无人机进行目标跟踪训练时,只训练无人机对静止目标的跟踪,将训练好的控制器直接应用于随机运动的目标跟踪;因此,将典型的无人机目标跟踪问题环境模型优化为如下形式:将环境模型限定在总面积为4l2的正方形区域内,其中,l为正方形区域边长的一半,此区域设定为无人机与目标的运动区域,训练过程中目标始终保持静止状态处于区域的中心位置,记为环境模型的坐标原点;训练初始时刻,无人机处于区域内的任意位置;
S2-2:数据归一化;
根据环境模型,记无人机状态量为s=[ΔxΔyvxvy],其中,Δx和Δy为无人机与目标在平面投影上的相对位置,有Δx=xe-x=-x,Δy=ye-y=-y;记无人机控制量为a,表示为a=[FxFy];
分别对无人机状态量和无人机控制量除以上限值,使其中每个元素在进入算法训练之前的值域为[-11],归一化处理后的无人机状态量记为s_norm,且归一化处理后的无人机控制量记为a_norm,且其中,vmax为无人机能够保持的最大飞行速度,Fx_max为控制机构能够为无人机施加的最大前向作用力,Fy_max为控制机构能够为无人机施加的最大侧向作用力;
无人机每时刻的采样数据经过归一化处理后被算法程序收集,用于无人机目标跟踪控制器的训练过程;
S3:设计基于欧式距离的奖励函数;
训练的目标是使无人机能够朝向目标点运动,无人机与目标点之间距离越小,获得的奖励越高,为了使无人机在目标跟踪过程中平稳追踪目标,无人机的速度也作为奖励函数设计的一部分,设计针对无人机目标跟踪问题强化学习算法中使用的奖励函数为其中,r为每时刻无人机得到的奖励值,v为无人机的合速度;
记训练初期无人机能够获取到奖...

【专利技术属性】
技术研发人员:蔡志浩李明君赵江王英勋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1