一种基于深度强化学习的无人机动态目标跟踪控制方法技术

技术编号:36561551 阅读:9 留言:0更新日期:2023-02-04 17:16
本发明专利技术属于无人机飞行控制技术领域,具体涉及一种基于深度强化学习的无人机动态目标跟踪控制方法,该方法包括:无人机目标跟踪马尔科夫决策过程设计、无人机目标跟踪奖励函数设计、针对性深度神经网络结构设计、基于SAC算法的速度指令感知控制器训练与无人机动态目标控制器的使用。通过端到端一体化控制器,能够简化无人机动态目标跟踪过程,具有鲁棒性强、实时响应速度快和对不同目标运动模式适应能力强的特点。能力强的特点。能力强的特点。

【技术实现步骤摘要】
一种基于深度强化学习的无人机动态目标跟踪控制方法


[0001]本专利技术属于无人机飞行控制
,具体涉及一种基于深度强化学习的无人机动态目 标跟踪控制方法。

技术介绍

[0002]随着无人机应用场景不断拓展,其自主智能化水平不断提高,无人机被应用在各个领域。 在民用领域,无人机广泛用于空中摄影、安防巡逻、农业检测、地震救援、野外定位等方面; 在军事领域,利用无人机进行空中侦察和监测,可实现对区域内的动态目标进行监视、定位 和精准打击,在上述应用场景中,都需要无人机跟踪指定的目标。由此可见,无人机目标跟 踪有着重要的研究意义。
[0003]无人机是典型的感知

控制系统,感知和控制分别作为该系统的输入端和输出端。通过感 知获取外界信息作为系统的输入,经过一系列的计算处理后输出控制信号,以驱动无人机完 成特定任务场景下的运动。无人机目标跟踪控制作为一个飞行任务同样需要无人机实现感知 到控制的全流程闭环,具有很强的系统性和多学科交叉特性。而目标的运动形式往往在不断 变化,呈现出的随机性、多样性和复杂性对无人机的感知与控制系统提出了较大的挑战。由 于无人机缺乏对被跟踪目标运动模式的先验知识,如何保证无人机能够对目标不确定性的变 化进行准确、快速的响应成为亟待解决的问题。
[0004]强化学习与深度神经网络进行结合产生了一个交叉领域,被称为深度强化学习。深度神 经网络通过多层的网络结构和非线性变换,组合低层特征,形成抽象的、易于区分的高层表 示,可以发现数据的分布式特征表示,侧重于对事物的感知和表达。因此,深度强化学习方 法同时具有感知复杂输入和进行决策的能力,能够很好的适配端到端的感知

控制系统,具有 很强的通用性。
[0005]传统的无人机控制方案往往需要经过传感器信号处理、建图、位姿估计、规划、轨迹跟 踪、底层控制等一系列模块串联实现,这种层层分立的形式很大概率会导致每个模块延时和 误差的累加,并且各个模块之间的接口环节往往是通过人工手动设计的,这可能导致这些接 口在面对不同任务场景时具有较弱的适用性。

技术实现思路

[0006]基于现有技术的不足,本专利技术提出了一种基于深度强化学习的无人机动态目标跟踪控制 方法,该方法基于SAC算法,采用端到端一体化控制器,能够简化无人机动态目标跟踪过程, 具有鲁棒性强、实时响应速度快和对不同目标运动模式适应能力强的特点。
[0007]本专利技术完整的技术方案如下:
[0008]一种基于深度强化学习的无人机动态目标跟踪控制方法,包括以下步骤:
[0009]步骤S1:基于马尔可夫决策过程建立无人机目标跟踪模型;
[0010]步骤S2:设计无人机目标跟踪奖励函数r
[0011]根据无人机与目标水平方向上的相对距离、相对方位以及回合终止条件三个因素
设计奖 励函数r;
[0012]步骤S3:构建多重特征提取深度神经网络;
[0013]步骤S4:基于SAC算法的深度神经网络训练;
[0014]步骤S5:使用步骤S4训练好的深度神经网络对无人机动态目标跟踪进行控制。
[0015]优选的,所述步骤S2中的奖励函数r设计如下:
[0016]S201:设计相对距离奖励函数r1[0017][0018]其中,d
r
为当前无人机与目标之间的水平距离;d
r_last
为上一步无人机与目标之间的 水平距离;接近步数n
approach
在无人机远离目标时清零,在无人机接近目标时累加1;
[0019]S202:设计相对方位奖励函数r2[0020]确定目标当前位置相对于无人机的实际方位角,a表示无人机动作方向向量,a
θr
表 示实际方位方向向量,a与a
θr
之间的夹角为θ
error
,令θ
error
小于一阈值θ
thresh

[0021][0022][0023]S203:设计回合终止条件奖励函数r3,
[0024](1)当无人机与目标在x和y方向上的相对距离分别大于由相机视野约束的地理边 界,x
lim
和y
lim
时,认定本回合任务失败,本回合终止并直接赋予无人机一个负值奖励r
out
且屏蔽掉r1和r2两项奖励的影响;
[0025](2)当无人机与目标之间的水平距离小于阈值d
r_thresh
时,认为无人机成功完成了到 达目标上方的任务,本回合终止,无人机获得以连续成功次数n
success
加权的正向奖励r
success
, 其中成功次数n
success
只统计连续若干步均满足无人机到达目标上方的步数,否则清零;
[0026]则有,
[0027][0028]S304:综合r1、r2和r3得到无人机目标跟踪奖励函数r;
[0029][0030]其中,w1和w2表示权重系数。
[0031]优选的,所述步骤S1包括:
[0032]无人机下一时刻的相机图像和自身状态仅依赖于无人机根据当前相机图像所产生并执行 的控制指令,将无人机的相机图像视为可观测的状态s
t
,控制指令视为动作a
t
,一
段有限时 域内s
t
和a
t
之间的交替构成一组时序上的状态动作序列,记为轨迹 τ=s0,a0,

,s
t
‑1,a
t
‑1,s
t
,...,a
T
‑1,s
T
,其中s0为初始状态,T为该有限时域的终止时刻。
[0033]优选的,所述步骤S3中的多重特征提取深度神经网络包括Actor网络和Critic网络,Actor 网络结构为七层,包括Actor网络结构的输入层、Actor网络结构的第一卷积层、Actor网络 结构的第二卷积层、Actor网络结构的第三卷积层、Actor网络结构的空间指数归一化层、Actor 网络结构的第一全连接层、Actor网络结构的第二全连接层、Actor网络结构的输出层。以 120
×
120
×
3的经过预处理的RGB图像作为输入,Actor网络结构的卷积层采用的卷积核大小 分别为7
×
7、5
×
5和5
×
5,全连接层的节点数依次为16个、8个,Actor网络结构的三个卷 积层在传递时加入Rule激活函数,空间指数归一化层借助指数归一化函数确定上一层网络的 输出特征图中各个通道的具有最大激活值的图像空间点的位置,Actor网络结构的两个全连接 层在传递时加入Leaky Rule激活函数,Actor网络结构的输出层有两个分支,分别用于计算 生成的随机动作高斯分布的均值和对数方差本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人机动态目标跟踪控制方法,其特征在于,包括以下步骤:步骤S1:基于马尔可夫决策过程建立无人机目标跟踪模型;步骤S2:设计无人机目标跟踪奖励函数r,根据无人机与目标水平方向上的相对距离、相对方位以及回合终止条件三个因素设计奖励函数r;步骤S3:构建多重特征提取深度神经网络;步骤S4:基于SAC算法的深度神经网络训练;步骤S5:使用步骤S4训练好的深度神经网络对无人机动态目标跟踪进行控制。2.根据权利要求1所述的无人机动态目标跟踪控制方法,其特征在于,所述步骤S2中的奖励函数r设计如下:S201:设计相对距离奖励函数r1其中,d
r
为当前无人机与目标之间的水平距离;d
r_last
为上一步无人机与目标之间的水平距离;接近步数n
approach
在无人机远离目标时清零,在无人机接近目标时累加1;S202:设计相对方位奖励函数r2确定目标当前位置相对于无人机的实际方位角,a表示无人机动作方向向量,表示实际方位方向向量,a与之间的夹角为θ
error
,令θ
error
小于一阈值θ
thresh
;;S203:设计回合终止条件奖励函数r3,(1)当无人机与目标在x和y方向上的相对距离分别大于由相机视野约束的地理边界x
lim
和y
lim
时,认定本回合任务失败,本回合终止并直接赋予无人机一个负值奖励r
out
且屏蔽掉r1和r2两项奖励的影响;(2)当无人机与目标之间的水平距离小于阈值d
r_thresh
时,认为无人机成功完成了到达目标上方的任务,本回合终止,无人机获得以连续成功次数n
success
加权的正向奖励r
success
,其中成功次数n
success
只统计连续若干步均满足无人机到达目标上方的步数,否则清零;则有,S304:综合r1、r2和r3得到无人机目标跟踪奖励函数r;
其中,w1和w2表示权重系数。3.根据权利要求1所述的无人机动态目标跟踪控制方法,其特征在于,所述步骤S1包括:无人机下一时刻的相机图像和自身状态仅依赖于无人机根据当前相机图像所产生并执行的控制指令,将无人机的相机图像视为可观测的状态s
t
,控制指令视为动作a
t
,一段有限时域内s
t
和a
t
之间的交替构成一组时序上的状态动作序列,记为轨迹τ=s0,a0,

,s
t
‑1,a
t
‑1,s
t
,...,a
T
‑1,s
T
,其中s0为初始状态,T为该有限时域的终止时刻。4.根据权利要求1所述的无人机动态目标跟踪控制方法,其特征在于,所述步骤S3中的多重特征提取深度神经网络包括Actor网络和Critic网络。5.根据权利要求4所述的无人机动态目标跟踪控制方法,其特征在于,Actor网络结构为七层,包括Actor网络结构的输...

【专利技术属性】
技术研发人员:赵江刘涵蔡志浩王英勋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1