一种基于DDPG迁移学习的无人机机动目标跟踪方法技术

技术编号：25639366 阅读：244 留言：0更新日期：2020-09-15 21:31

本发明专利技术涉及一种基于DDPG迁移学习的无人机机动目标跟踪方法，通过对任务分解，初始化环境状态，神经网络参数等其他超参数，对神经网络进行训练。回合起始时，无人机执行行动改变速度和航向角，得到新的状态，并将每一回合的经验保存于经验池中作为学习样本，不断迭代更新神经网络的参数。当训练完成时，保存子任务训练好的神经网络参数，并迁移至下一任务场景下的无人机机动目标跟踪网络中，直到最终任务完成。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DDPG迁移学习的无人机机动目标跟踪方法
本专利技术涉及一种基于DDPG迁移学习的无人机机动目标跟踪方法，属于机器人智能控制领域。
技术介绍
随着无人机技术的不断发展，无人机已广泛应用于民事领域中。在无人机的诸多任务中，执行最多的是监视、侦察任务，如果无人机能够自主、准确的对它方机动目标进行跟踪，扩大监视范围，同时有效规避威胁区域，就可以极大的提高监视、侦察甚至是攻击效率。现有大多数对无人机机动目标的研究放在机动目标状态估计和测量信息处理这一块，很少研究如何在确定机动目标状态后，决策无人机的机动行为，让其更好的跟踪目标。传统的无人机机动目标跟踪算法主要取决于对目标运动建模的精确度，如果目标跟踪的环境模型和实际运动模型存在较大的误差，会导致跟踪过程中出现因目标状态无法估计的影响因素，另外对目标机动建模需要耗费时间。无人机跟踪的环境可能是比较复杂、动态变化、甚至是不确定的，以及无人机所承担的目标跟踪任务日趋复杂。综合以上因素，对无人机的自主性提出了更高的要求，越来越需要无人机有自主学习的能力。因此研究对环境模型依赖程度低或不需要模型、能通过与环境交互自主学习，适应复杂机动目标的跟踪方法是非常有意义的，同时也将成为无人机机动目标跟踪研究领域的必然趋势。公开专利CN108919640B提出了一种基于强化学习的无人机目标跟踪方法，跟踪环境较为简单，决策所需的数据量较小，不能满足环境复杂情况下的无人机目标跟踪，难以应用于真实场景下的无人机控制系统之中。公开专利CN110806759A提出了一种基于深度强化...

【技术保护点】
1.一种基于DDPG迁移学习的无人机机动目标跟踪方法，其特征在于步骤如下：/n步骤1：对无人机机动目标跟踪的马尔科夫模型(S,A,O,R,γ)进行构建，其中S为无人机的输入状态，A为无人机的输出动作，O为无人机传感器的观测空间，R为奖励函数，γ为折扣系数；/n步骤1-1：定义马尔科夫模型的状态空间，即输入状态S：/n结合无人机状态、目标状态、障碍物状态信息，设定模型输入状态为：/n

【技术特征摘要】
1.一种基于DDPG迁移学习的无人机机动目标跟踪方法，其特征在于步骤如下：
步骤1：对无人机机动目标跟踪的马尔科夫模型(S,A,O,R,γ)进行构建，其中S为无人机的输入状态，A为无人机的输出动作，O为无人机传感器的观测空间，R为奖励函数，γ为折扣系数；
步骤1-1：定义马尔科夫模型的状态空间，即输入状态S：
结合无人机状态、目标状态、障碍物状态信息，设定模型输入状态为：

其中：无人机状态Suav＝[xuav,yuav,vuav,θuav]，xuav,yuav表示无人机二维平面上的位置，vuav为无人机的速度，θuav为无人机的方位角；
目标状态xtarget,ytarget表示目标二维平面上的位置，为目标沿X、Y轴的速度分量，ωtarget为目标的转弯角，ωtarget＞0为逆时针转弯，ωtarget＜0为顺时针转弯；
障碍物状态表示第i个障碍物的状态，其中i＝1,2,…n；由于每个障碍物的实际物理模型不同，为方便构建，统一对其做外接圆处理；设定障碍物状态其中，表示第i个障碍物在二维平面上的位置，为第i个障碍物的外接圆半径；
步骤1-2：定义马尔科夫模型的动作空间，即无人机的输出动作A：
输出动作A表示无人机在接受到外界反馈值之后，针对自身状态值所采取的动作集；设定输出动作为：

其中，为无人机t时刻的加速度，ωt为无人机t时刻的角速度；结合实际应用分别对无人机的加速度和角速度进行约束：ωt∈[ωmin,ωmax]；其中，分别代表无人机的最小、最大加速度；ωmin、ωmax分别代表无人机的最小、最大角速度；
步骤1-3：定义马尔科夫模型的观测空间，即传感器的观测空间O：
利用雷达传感器对无人机与目标的位置、速度信息进行判断和获取；设定观测空间为：

其中，无人机与目标之间的相对距离D为：

无人机与目标之间的相对方位角为：

其中，分别为距离和角度的观测误差值；
步骤1-4：定义奖励函数R：
利用传感器获取无人机与目标位置信息，通过对无人机进行距离奖惩和避障奖惩，综合得到奖励函数R，表示无人机在当前状态下选取某一动作时所获得的反馈值；
设定距离奖励函数r1为：

其中，λ1、λ2为两项奖励的权重值；Dt-1代表无人机与目标上一时刻之间的距离，Dt为无人机与目标当前t时刻之间的距离，Dmin为最小跟踪范围；Dmax为最大跟踪距离，L为传感器的观测范围；若Dt＞L，则给予一个负数常数的惩罚奖励C2；若Dt≤L，则给予正奖励；若Dt＜L且Dt＜Dmin则给予一个正数常数的奖励C1；
设定避障奖励函数为：

其中，是在t时刻无人机与障碍物之间的距离，Dsafe是常数，表示无人机与障碍物之间的安全间隔；
综合无人机距离奖励、避障奖励，得到奖励函数R为：

其中，λ3、λ4分别表示距离奖励、避障奖励权重值；
步骤1-5：定义折扣因子γ：
设定折扣因子0<γ<1，用于计算整个过程中的回报累计值；当γ值越大，表示越注重长期收益；
步骤2：构建DDPG算法的神经网络：
步骤2-1：构建DDPG算法中的策略网络，即Actor策略网络：
策略网络μactor由输入层、隐藏层和输出层组成，对于输入状态向量s，策略网络的输出向量u表示为：
u＝μactor(s)
步骤2-2：构建DDPG算法中的评价网络，即Critic评价网络：
评价网络的输出为状态-行为值Qμ(s,u)，表示为：

其中，k为求和变量，E[·]表示数学期望；st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量；
步骤2-3：构建目标神经网络：
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中，即θμ→θμ′，θQ→θQ′，其中θμ、θQ分别表示当前策略网络和评价网络的参数，θμ′...

【专利技术属性】
技术研发人员：李波，杨志鹏，高晓光，万开方，梁诗阳，马浩，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人