【技术实现步骤摘要】
一种基于深度强化学习的无人机侦测轨迹规划方法
[0001]本专利技术涉及一种基于深度强化学习的无人机侦测轨迹规划方法,属于机器人智能决策与控制
技术介绍
[0002]近年来,无人机以其性价比高、适用性广、灵活性强等特点得到了广泛应用和长足发展。然而现役无人机大多仍工作于预编程或人员操纵模式,依赖于有人在环控制,且对通信链路要求较高,大大限制了无人机的应用范围。无人机执行各项任务主要包括环境感知、轨迹规划和底层控制三个步骤,其中轨迹规划能力的提升可大大提高其自主能力、对任务环境的适应能力及工作效率。无人机轨迹规划方法大致可分为三大类:基于图搜索的方法、基于随机采样的方法和基于优化问题求解的方法。
[0003]基于图搜索的方法是将无人机工作空间的地图构建为一个图,包括节点和边,构建完成后的搜索过程是维护一个存储访问节点的容器,并不停循环移除、扩展、塞入节点三个步骤,直至搜索到终点,其中移除节点的不同方式可以了定义不同的图搜索方法,如Dijkstra算法和A*算法。基于随机采样的方法不需要遍历整个工作空间的地图,只通过对状态空间均匀随机采样来构建一个连通图,然后进行碰撞检测等,当初始点和终止点都出现在图中时采样结束,与基于图搜索的方法相比,规划效率更高。该方法包括单查询的概率路图算法(Probabilistic Road Map,PRM)、快速随机扩展树算法(Rapidly
‑
exploring Random Tree,RRT)、RRT
‑
Connect算法等,以及渐近 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于包括以下步骤:1)构建无人机侦测轨迹规划的马尔科夫决策过程模型;2)根据步骤1)构建的马尔科夫决策过程模型建立无人机的侦测轨迹优化问题;3)根据步骤2)建立的无人机的侦测轨迹优化问题设计强化学习求解算法;4)将无人机的观测量输入到步骤3)设计的强化学习求解算法,得到基于深度强化学习的规划策略下的无人机侦测轨迹。2.根据权利要求1所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的步骤1)中,构建的无人机侦测轨迹规划的马尔科夫决策过程模型包括状态变量、控制变量、转移模型和损失函数。3.根据权利要求2所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的状态变量s
k
表达式为s
k
=[x
k
‑
x
r
,y
k
‑
y
r
,θ
k
,f(p
k
,k)]
T
其中,p
k
=(x
k
,y
k
)表示无人机在当前时刻k的位置,θ
k
表示惯性坐标系下无人机的航向角,f(p
k
,k)表示无人机在当前时刻所获得的信号场强度;(x
r
,y
r
)为无人机的目标位置;所述的控制变量表达式为无人机的航向角速度a
k
=ω
k
;所述的转移模型的表达式为:s
k+1
=g(s
k
,a
k
)。4.根据权利要求3所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的损失函数用于评价无人机状态s
k
下执行控制变量a
k
的效果,表达式为:其中,ρ,λ分别表示各项的权重系数,Δ
d
(k)=||(x
k
‑
x
r
,y
k
‑
y
r
)
′
||
‑
||(x
k
‑1‑
x
r
,y
k
‑1‑
y
r
)
′
||,表示无人机所获得的信息奖励,信息奖励中的c
info
(k)由估计的时空信号场得到,时空信号场采用如下偏微分方程描述:其中,A是一个线性算子,∈(t)表示信号场的白噪声输入,采用有限元方法进行估计,即其中,φ
i
(p)表示一个基函数,x
i
(t)为基函数对应的未知参数;f(p,t)再经过Galerkin加权残差方法及离散化处理,将偏微分方程表示的时空信号场表示为如下线性系统:x(k+1)=Ax(k)+ε
d
(k)其中,A为状态转移矩阵,ε
d
(k)为包含输入噪声及估计误差的误差项,针对该线性系统,
设计信息奖励为:c
info
(k)=Δ
r
(G(p,k))+wλ
m
(G(p,k)),Δ
r
(G(p,k))=rank(G(p,k))
‑
rank(G(p,k
‑
1)),其中,G(p,k)为线性系统的可观性Gramian矩阵,λ
m
(A)表示矩阵A的最小特征值,rank(A)表示矩阵A的秩。5.根据权利要求1所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的步骤2)中,建立的无人机的侦测轨迹优化问题中包括确定目标函数和约束条件。6.根据权利要求5所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的目标函数J的表达式为:其中,表示求均值算子,γ表示对未来损失的权重的衰减因子,0<γ<1;所述的约束条件的表达式为:s
k+1
=g(s
k
,a
k
),k=1,...,n
‑
1,n为终点时刻;λ
m
(G(p,n))≥∈其中,a
k≥1
表示控制变量的输入序列,λ
m
(G(p,n))表示矩阵G(p,n)的最小特征值,物理意义为无人机到达最终时刻所获得的信息量,∈为一个给定上界。7.根据权利要求1所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的步骤3)中,设计强化学习求解算法包括构建并更新两个评价网络以及构建并更新策略网络。8.根据权利要求7所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的构建评价网络的方法为:使用μ
j
参数化两个评价网络μ
j<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。