【技术实现步骤摘要】
一种基于深度强化学习的无人机动态目标跟踪控制方法
[0001]本专利技术属于无人机飞行控制
,具体涉及一种基于深度强化学习的无人机动态目 标跟踪控制方法。
技术介绍
[0002]随着无人机应用场景不断拓展,其自主智能化水平不断提高,无人机被应用在各个领域。 在民用领域,无人机广泛用于空中摄影、安防巡逻、农业检测、地震救援、野外定位等方面; 在军事领域,利用无人机进行空中侦察和监测,可实现对区域内的动态目标进行监视、定位 和精准打击,在上述应用场景中,都需要无人机跟踪指定的目标。由此可见,无人机目标跟 踪有着重要的研究意义。
[0003]无人机是典型的感知
‑
控制系统,感知和控制分别作为该系统的输入端和输出端。通过感 知获取外界信息作为系统的输入,经过一系列的计算处理后输出控制信号,以驱动无人机完 成特定任务场景下的运动。无人机目标跟踪控制作为一个飞行任务同样需要无人机实现感知 到控制的全流程闭环,具有很强的系统性和多学科交叉特性。而目标的运动形式往往在不断 变化,呈现出的随机性、多样性和复杂性对无人机的感知与控制系统提出了较大的挑战。由 于无人机缺乏对被跟踪目标运动模式的先验知识,如何保证无人机能够对目标不确定性的变 化进行准确、快速的响应成为亟待解决的问题。
[0004]强化学习与深度神经网络进行结合产生了一个交叉领域,被称为深度强化学习。深度神 经网络通过多层的网络结构和非线性变换,组合低层特征,形成抽象的、易于区分的高层表 示,可以发现数据的分布式特征表示,侧重于对事物的 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的无人机动态目标跟踪控制方法,其特征在于,包括以下步骤:步骤S1:基于马尔可夫决策过程建立无人机目标跟踪模型;步骤S2:设计无人机目标跟踪奖励函数r,根据无人机与目标水平方向上的相对距离、相对方位以及回合终止条件三个因素设计奖励函数r;步骤S3:构建多重特征提取深度神经网络;步骤S4:基于SAC算法的深度神经网络训练;步骤S5:使用步骤S4训练好的深度神经网络对无人机动态目标跟踪进行控制。2.根据权利要求1所述的无人机动态目标跟踪控制方法,其特征在于,所述步骤S2中的奖励函数r设计如下:S201:设计相对距离奖励函数r1其中,d
r
为当前无人机与目标之间的水平距离;d
r_last
为上一步无人机与目标之间的水平距离;接近步数n
approach
在无人机远离目标时清零,在无人机接近目标时累加1;S202:设计相对方位奖励函数r2确定目标当前位置相对于无人机的实际方位角,a表示无人机动作方向向量,表示实际方位方向向量,a与之间的夹角为θ
error
,令θ
error
小于一阈值θ
thresh
;;S203:设计回合终止条件奖励函数r3,(1)当无人机与目标在x和y方向上的相对距离分别大于由相机视野约束的地理边界x
lim
和y
lim
时,认定本回合任务失败,本回合终止并直接赋予无人机一个负值奖励r
out
且屏蔽掉r1和r2两项奖励的影响;(2)当无人机与目标之间的水平距离小于阈值d
r_thresh
时,认为无人机成功完成了到达目标上方的任务,本回合终止,无人机获得以连续成功次数n
success
加权的正向奖励r
success
,其中成功次数n
success
只统计连续若干步均满足无人机到达目标上方的步数,否则清零;则有,S304:综合r1、r2和r3得到无人机目标跟踪奖励函数r;
其中,w1和w2表示权重系数。3.根据权利要求1所述的无人机动态目标跟踪控制方法,其特征在于,所述步骤S1包括:无人机下一时刻的相机图像和自身状态仅依赖于无人机根据当前相机图像所产生并执行的控制指令,将无人机的相机图像视为可观测的状态s
t
,控制指令视为动作a
t
,一段有限时域内s
t
和a
t
之间的交替构成一组时序上的状态动作序列,记为轨迹τ=s0,a0,
…
,s
t
‑1,a
t
‑1,s
t
,...,a
T
‑1,s
T
,其中s0为初始状态,T为该有限时域的终止时刻。4.根据权利要求1所述的无人机动态目标跟踪控制方法,其特征在于,所述步骤S3中的多重特征提取深度神经网络包括Actor网络和Critic网络。5.根据权利要求4所述的无人机动态目标跟踪控制方法,其特征在于,Actor网络结构为七层,包括Actor网络结构的输...
【专利技术属性】
技术研发人员:赵江,刘涵,蔡志浩,王英勋,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。