一种基于DDPG迁移学习的无人机机动目标跟踪方法技术

技术编号:25639366 阅读:244 留言:0更新日期:2020-09-15 21:31
本发明专利技术涉及一种基于DDPG迁移学习的无人机机动目标跟踪方法,通过对任务分解,初始化环境状态,神经网络参数等其他超参数,对神经网络进行训练。回合起始时,无人机执行行动改变速度和航向角,得到新的状态,并将每一回合的经验保存于经验池中作为学习样本,不断迭代更新神经网络的参数。当训练完成时,保存子任务训练好的神经网络参数,并迁移至下一任务场景下的无人机机动目标跟踪网络中,直到最终任务完成。

【技术实现步骤摘要】
一种基于DDPG迁移学习的无人机机动目标跟踪方法
本专利技术涉及一种基于DDPG迁移学习的无人机机动目标跟踪方法,属于机器人智能控制领域。
技术介绍
随着无人机技术的不断发展,无人机已广泛应用于民事领域中。在无人机的诸多任务中,执行最多的是监视、侦察任务,如果无人机能够自主、准确的对它方机动目标进行跟踪,扩大监视范围,同时有效规避威胁区域,就可以极大的提高监视、侦察甚至是攻击效率。现有大多数对无人机机动目标的研究放在机动目标状态估计和测量信息处理这一块,很少研究如何在确定机动目标状态后,决策无人机的机动行为,让其更好的跟踪目标。传统的无人机机动目标跟踪算法主要取决于对目标运动建模的精确度,如果目标跟踪的环境模型和实际运动模型存在较大的误差,会导致跟踪过程中出现因目标状态无法估计的影响因素,另外对目标机动建模需要耗费时间。无人机跟踪的环境可能是比较复杂、动态变化、甚至是不确定的,以及无人机所承担的目标跟踪任务日趋复杂。综合以上因素,对无人机的自主性提出了更高的要求,越来越需要无人机有自主学习的能力。因此研究对环境模型依赖程度低或不需要模型、能通过与环境交互自主学习,适应复杂机动目标的跟踪方法是非常有意义的,同时也将成为无人机机动目标跟踪研究领域的必然趋势。公开专利CN108919640B提出了一种基于强化学习的无人机目标跟踪方法,跟踪环境较为简单,决策所需的数据量较小,不能满足环境复杂情况下的无人机目标跟踪,难以应用于真实场景下的无人机控制系统之中。公开专利CN110806759A提出了一种基于深度强化学习的飞行器航线跟踪方法,该专利技术基于深度强化学习对飞行器的物理控制进行在线修正,实现无人机自主感知和决策。然而,该方法没有考虑神经网络拟合所需要的时间成本还有其迁移能力,使得任务难以训练。深度确定性策略梯度(DDPG)算法不仅利用了深度Q网络算法中经验池和双神经网络结构的优良性能,改善了传统强化学习数据爆炸等问题;还拥有策略梯度算法的特点,可以有效处理连续域数据,并使神经网络快速收敛。此外,作为一种高效的机器学习方法,迁移学习能够对不同任务中开发好的网络进行迁移,并重新应用于其相似工程任务模型的开发过程中,大大节省训练时间和成本,提升网络、模型的泛化能力。因此,设计一种基于DDPG迁移学习的无人机机动目标跟踪方法,对于无人机在相关领域应用的实现具有重要意义。
技术实现思路
要解决的技术问题为了避免现有技术的不足之处,本专利技术提出一种基于DDPG迁移学习的无人机机动目标跟踪方法。技术方案一种基于DDPG迁移学习的无人机机动目标跟踪方法,其特征在于步骤如下:步骤1:对无人机机动目标跟踪的马尔科夫模型(S,A,O,R,γ)进行构建,其中S为无人机的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣系数;步骤1-1:定义马尔科夫模型的状态空间,即输入状态S:结合无人机状态、目标状态、障碍物状态信息,设定模型输入状态为:其中:无人机状态Suav=[xuav,yuav,vuav,θuav],xuav,yuav表示无人机二维平面上的位置,vuav为无人机的速度,θuav为无人机的方位角;目标状态xtarget,ytarget表示目标二维平面上的位置,为目标沿X、Y轴的速度分量,ωtarget为目标的转弯角,ωtarget>0为逆时针转弯,ωtarget<0为顺时针转弯;障碍物状态表示第i个障碍物的状态,其中i=1,2,…n;由于每个障碍物的实际物理模型不同,为方便构建,统一对其做外接圆处理;设定障碍物状态其中,表示第i个障碍物在二维平面上的位置,为第i个障碍物的外接圆半径;步骤1-2:定义马尔科夫模型的动作空间,即无人机的输出动作A:输出动作A表示无人机在接受到外界反馈值之后,针对自身状态值所采取的动作集;设定输出动作为:其中,为无人机t时刻的加速度,ωt为无人机t时刻的角速度;结合实际应用分别对无人机的加速度和角速度进行约束:ωt∈[ωmin,ωmax];其中,分别代表无人机的最小、最大加速度;ωmin、ωmax分别代表无人机的最小、最大角速度;步骤1-3:定义马尔科夫模型的观测空间,即传感器的观测空间O:利用雷达传感器对无人机与目标的位置、速度信息进行判断和获取;设定观测空间为:其中,无人机与目标之间的相对距离D为:无人机与目标之间的相对方位角为:其中,分别为距离和角度的观测误差值;步骤1-4:定义奖励函数R:利用传感器获取无人机与目标位置信息,通过对无人机进行距离奖惩和避障奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值;设定距离奖励函数r1为:其中,λ1、λ2为两项奖励的权重值;Dt-1代表无人机与目标上一时刻之间的距离,Dt为无人机与目标当前t时刻之间的距离,Dmin为最小跟踪范围;Dmax为最大跟踪距离,L为传感器的观测范围;若Dt>L,则给予一个负数常数的惩罚奖励C2;若Dt≤L,则给予正奖励;若Dt<L且Dt<Dmin则给予一个正数常数的奖励C1;设定避障奖励函数为:其中,是在t时刻无人机与障碍物之间的距离,Dsafe是常数,表示无人机与障碍物之间的安全间隔;综合无人机距离奖励、避障奖励,得到奖励函数R为:R=λ3*r1-λ4*rtcoll其中,λ3、λ4分别表示距离奖励、避障奖励权重值;步骤1-5:定义折扣因子γ:设定折扣因子0<γ<1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益;步骤2:构建DDPG算法的神经网络:步骤2-1:构建DDPG算法中的策略网络,即Actor策略网络:策略网络μactor由输入层、隐藏层和输出层组成,对于输入状态向量s,策略网络的输出向量u表示为:u=μactor(s)步骤2-2:构建DDPG算法中的评价网络,即Critic评价网络:评价网络的输出为状态-行为值Qμ(s,u),表示为:其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量;步骤2-3:构建目标神经网络:将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ、θQ分别表示当前策略网络和评价网络的参数,θμ′、θQ′分别表示目标策略网络和目标评价网络的参数;步骤3:无人机和目标状态更新步骤3-1:构建无人机在t时刻的状态更新方程:其中,xuav(·)、yuav(·)表示某时刻无人机的坐标值,vuav(·)、ζuav(·)表示某时刻无人机的线速度和角速度,为某时刻无人机的加速度;Δt为仿真时间间隔,9vmin,vmax)为无人本文档来自技高网
...

【技术保护点】
1.一种基于DDPG迁移学习的无人机机动目标跟踪方法,其特征在于步骤如下:/n步骤1:对无人机机动目标跟踪的马尔科夫模型(S,A,O,R,γ)进行构建,其中S为无人机的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣系数;/n步骤1-1:定义马尔科夫模型的状态空间,即输入状态S:/n结合无人机状态、目标状态、障碍物状态信息,设定模型输入状态为:/n

【技术特征摘要】
1.一种基于DDPG迁移学习的无人机机动目标跟踪方法,其特征在于步骤如下:
步骤1:对无人机机动目标跟踪的马尔科夫模型(S,A,O,R,γ)进行构建,其中S为无人机的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣系数;
步骤1-1:定义马尔科夫模型的状态空间,即输入状态S:
结合无人机状态、目标状态、障碍物状态信息,设定模型输入状态为:



其中:无人机状态Suav=[xuav,yuav,vuav,θuav],xuav,yuav表示无人机二维平面上的位置,vuav为无人机的速度,θuav为无人机的方位角;
目标状态xtarget,ytarget表示目标二维平面上的位置,为目标沿X、Y轴的速度分量,ωtarget为目标的转弯角,ωtarget>0为逆时针转弯,ωtarget<0为顺时针转弯;
障碍物状态表示第i个障碍物的状态,其中i=1,2,…n;由于每个障碍物的实际物理模型不同,为方便构建,统一对其做外接圆处理;设定障碍物状态其中,表示第i个障碍物在二维平面上的位置,为第i个障碍物的外接圆半径;
步骤1-2:定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机在接受到外界反馈值之后,针对自身状态值所采取的动作集;设定输出动作为:



其中,为无人机t时刻的加速度,ωt为无人机t时刻的角速度;结合实际应用分别对无人机的加速度和角速度进行约束:ωt∈[ωmin,ωmax];其中,分别代表无人机的最小、最大加速度;ωmin、ωmax分别代表无人机的最小、最大角速度;
步骤1-3:定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机与目标的位置、速度信息进行判断和获取;设定观测空间为:



其中,无人机与目标之间的相对距离D为:



无人机与目标之间的相对方位角为:



其中,分别为距离和角度的观测误差值;
步骤1-4:定义奖励函数R:
利用传感器获取无人机与目标位置信息,通过对无人机进行距离奖惩和避障奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值;
设定距离奖励函数r1为:



其中,λ1、λ2为两项奖励的权重值;Dt-1代表无人机与目标上一时刻之间的距离,Dt为无人机与目标当前t时刻之间的距离,Dmin为最小跟踪范围;Dmax为最大跟踪距离,L为传感器的观测范围;若Dt>L,则给予一个负数常数的惩罚奖励C2;若Dt≤L,则给予正奖励;若Dt<L且Dt<Dmin则给予一个正数常数的奖励C1;
设定避障奖励函数为:



其中,是在t时刻无人机与障碍物之间的距离,Dsafe是常数,表示无人机与障碍物之间的安全间隔;
综合无人机距离奖励、避障奖励,得到奖励函数R为:



其中,λ3、λ4分别表示距离奖励、避障奖励权重值;
步骤1-5:定义折扣因子γ:
设定折扣因子0<γ<1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益;
步骤2:构建DDPG算法的神经网络:
步骤2-1:构建DDPG算法中的策略网络,即Actor策略网络:
策略网络μactor由输入层、隐藏层和输出层组成,对于输入状态向量s,策略网络的输出向量u表示为:
u=μactor(s)
步骤2-2:构建DDPG算法中的评价网络,即Critic评价网络:
评价网络的输出为状态-行为值Qμ(s,u),表示为:



其中,k为求和变量,E[·]表示数学期望;st+k+1、ut+k+1分别表示t+k+1时刻的状态输入向量和动作输出向量;
步骤2-3:构建目标神经网络:
将策略网络μactor和评价网络Qμ(s,u)的权重复制到各自的目标网络中,即θμ→θμ′,θQ→θQ′,其中θμ、θQ分别表示当前策略网络和评价网络的参数,θμ′...

【专利技术属性】
技术研发人员:李波杨志鹏高晓光万开方梁诗阳马浩
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1