一种基于深度强化学习的无人机侦测轨迹规划方法技术

技术编号:36224373 阅读:20 留言:0更新日期:2023-01-04 12:23
本发明专利技术提出一种基于深度强化学习的无人机侦测轨迹规划方法,属于机器人智能决策与控制领域。首先构建无人机侦测轨迹规划的马尔科夫决策过程模型,分别得到无人机侦测轨迹规划的状态变量,控制变量,转移模型,损失函数的表达式;然后建立策略网络和评价网络;再通过强化学习在无人机每前进一步后训练更新策略网络和评价网络,直至二者收敛;最终得到用于无人机轨迹规划的策略网络。本发明专利技术在无人机动力学模型与待侦测信号场的分布完全未知的情况下实现无人机侦测信号场的轨迹规划,使其以最短时间获得充足信息并抵达预定目标,具有很高的实用价值。的实用价值。的实用价值。

【技术实现步骤摘要】
一种基于深度强化学习的无人机侦测轨迹规划方法


[0001]本专利技术涉及一种基于深度强化学习的无人机侦测轨迹规划方法,属于机器人智能决策与控制


技术介绍

[0002]近年来,无人机以其性价比高、适用性广、灵活性强等特点得到了广泛应用和长足发展。然而现役无人机大多仍工作于预编程或人员操纵模式,依赖于有人在环控制,且对通信链路要求较高,大大限制了无人机的应用范围。无人机执行各项任务主要包括环境感知、轨迹规划和底层控制三个步骤,其中轨迹规划能力的提升可大大提高其自主能力、对任务环境的适应能力及工作效率。无人机轨迹规划方法大致可分为三大类:基于图搜索的方法、基于随机采样的方法和基于优化问题求解的方法。
[0003]基于图搜索的方法是将无人机工作空间的地图构建为一个图,包括节点和边,构建完成后的搜索过程是维护一个存储访问节点的容器,并不停循环移除、扩展、塞入节点三个步骤,直至搜索到终点,其中移除节点的不同方式可以了定义不同的图搜索方法,如Dijkstra算法和A*算法。基于随机采样的方法不需要遍历整个工作空间的地图,只通过对状态空间均匀随机采样来构建一个连通图,然后进行碰撞检测等,当初始点和终止点都出现在图中时采样结束,与基于图搜索的方法相比,规划效率更高。该方法包括单查询的概率路图算法(Probabilistic Road Map,PRM)、快速随机扩展树算法(Rapidly

exploring Random Tree,RRT)、RRT

Connect算法等,以及渐近最优算法的RRT*算法等。
[0004]以上两种方法偏重于无人机的路径规划,而较少考虑轨迹规划中无人机的动力学约束。对于实际应用中的无人机轨迹规划需要考虑其动力学、能量消耗、外部威胁等多重约束及不同目标,现有研究常采用基于优化方法中的最优控制进行解析或数值求解。然而,由于无人机的工作环境常具有时空动态且其中的信号分布未知,无人机轨迹约束常由非凸泛函不等式描述且无明确表达式,使用最优控制方法求解复杂度极高且很难求得最优解。
[0005]随着人工智能技术的发展,强化学习逐渐成为一种新的轨迹规划方法。强化学习以马尔可夫决策过程为理论基础,基本思想是通过无人机与外部环境的不断交互试错,训练得到最优的轨迹规划策略。强化学习的现有研究大多将无人机的跟踪控制问题建模成马尔可夫决策过程,其中的转移概率对应无人机的动力学模型,从而实现无模型控制。
[0006]与目标跟踪任务相比,无人机侦测任务的轨迹规划问题具有更大的挑战性。在该任务中,不仅无人机的动力学模型未知,待侦测的信号场分布也完全未知且具有时空动态性。此外,由于无人机的量测信息随其轨迹不断累积,侦测任务中的信息约束则表述为时间的泛函,只能在轨迹结束时进行判断。对于该问题,使用优化问题进行数值求解需要极大的计算量,在强化学习框架下则具有奖励稀疏的难点,因此有待进一步研究解决。

技术实现思路

[0007]本专利技术的目的是克服现有技术的不足之处,提出一种基于深度强化学习的无人机
侦测轨迹规划方法。本专利技术提出的方法不依赖无人机动力学模型和待侦测环境模型,仅以无人机位置、环境中信号场强度量测等传感器信息作为神经网络输入,以无人机角速度的控制指令为输出,训练得到无人机轨迹规划策略网络,使无人机在最短时间内获得充足的信号场相关信息并抵达预定目标位置,完成信号场侦测任务。
[0008]本专利技术提出的一种基于深度强化学习的无人机侦测轨迹规划方法,该方法无需无人机动力学模型与待侦测信号场分布,只需要无人机与信号场不断交互即可训练得侦测的轨迹规划策略,包括以下步骤:
[0009]1)构建无人机侦测轨迹规划的马尔科夫决策过程模型;
[0010]马尔科夫决策过程模型由一个四元组表示,即状态变量、控制变量、转移模型、损失函数;构建具体步骤如下:
[0011]1‑
1)确定状态变量;
[0012]本专利技术面向无人机在固定高度的信号场侦测任务,故在无人机所在高度建立平面直角坐标系,以其初始位置为原点,状态变量s
k
表达式为
[0013]s
k
=[x
k

x
r
,y
k

y
r

k
,f(p
k
,k)]T
[0014]其中,p
k
=(x
k
,y
k
)表示无人机在当前时刻k的位置,θ
k
表示惯性坐标系下无人机的航向角,f(p
k
,k)表示无人机在当前时刻所获得的信号场强度;(x
r
,y
r
)为无人机的目标位置;
[0015]1‑
2)确定控制变量;
[0016]控制变量表达式为无人机的航向角速度a
k
=ω
k

[0017]1‑
3)确定转移模型;
[0018]转移模型的表达式为:
[0019]s
k+1
=g(s
k
,a
k
),
[0020]该转移模型表示在给定当前k时刻状态变量与控制变量,返回下一时刻的状态变量;
[0021]1‑
4)确定损失函数;
[0022]损失函数用于评价无人机状态s
k
下执行控制变量a
k
的效果,表达式为:
[0023][0024]其中,ρ,λ分别表示各项的权重系数,
[0025]Δ
d
(k)=‖(x
k

x
r
,y
k

y
r
)



‖(x
k
‑1‑
x
r
,y
k
‑1‑
y
r
)

‖,表示无人机所获得的信息奖励,信息奖励中的c
info
(k)由估计的时空信号场得到,时空信号场采用如下偏微分方程描述:
[0026][0027]其中,A是一个线性算子,∈(t)表示信号场的白噪声输入,采用有限元方法进行估计,即
[0028][0029]其中,φ
i
(p)表示一个基函数,x
i
(t)为基函数对应的未知参数;
[0030]f(p,t)再经过Galerkin加权残差方法及离散化处理,将偏微分方程表示的时空信号场表示为如下线性系统:
[0031]x(k+1)=Ax(k)+ε
d
(k)
[0032]其中,A为状态转移矩阵,ε
d
(k)为包含输入噪声及估计误差的误差项,针对该线性系统,设计信息奖励为:
[0033]c<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于包括以下步骤:1)构建无人机侦测轨迹规划的马尔科夫决策过程模型;2)根据步骤1)构建的马尔科夫决策过程模型建立无人机的侦测轨迹优化问题;3)根据步骤2)建立的无人机的侦测轨迹优化问题设计强化学习求解算法;4)将无人机的观测量输入到步骤3)设计的强化学习求解算法,得到基于深度强化学习的规划策略下的无人机侦测轨迹。2.根据权利要求1所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的步骤1)中,构建的无人机侦测轨迹规划的马尔科夫决策过程模型包括状态变量、控制变量、转移模型和损失函数。3.根据权利要求2所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的状态变量s
k
表达式为s
k
=[x
k

x
r
,y
k

y
r
,θ
k
,f(p
k
,k)]
T
其中,p
k
=(x
k
,y
k
)表示无人机在当前时刻k的位置,θ
k
表示惯性坐标系下无人机的航向角,f(p
k
,k)表示无人机在当前时刻所获得的信号场强度;(x
r
,y
r
)为无人机的目标位置;所述的控制变量表达式为无人机的航向角速度a
k
=ω
k
;所述的转移模型的表达式为:s
k+1
=g(s
k
,a
k
)。4.根据权利要求3所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的损失函数用于评价无人机状态s
k
下执行控制变量a
k
的效果,表达式为:其中,ρ,λ分别表示各项的权重系数,Δ
d
(k)=||(x
k

x
r
,y
k

y
r
)

||

||(x
k
‑1‑
x
r
,y
k
‑1‑
y
r
)

||,表示无人机所获得的信息奖励,信息奖励中的c
info
(k)由估计的时空信号场得到,时空信号场采用如下偏微分方程描述:其中,A是一个线性算子,∈(t)表示信号场的白噪声输入,采用有限元方法进行估计,即其中,φ
i
(p)表示一个基函数,x
i
(t)为基函数对应的未知参数;f(p,t)再经过Galerkin加权残差方法及离散化处理,将偏微分方程表示的时空信号场表示为如下线性系统:x(k+1)=Ax(k)+ε
d
(k)其中,A为状态转移矩阵,ε
d
(k)为包含输入噪声及估计误差的误差项,针对该线性系统,
设计信息奖励为:c
info
(k)=Δ
r
(G(p,k))+wλ
m
(G(p,k)),Δ
r
(G(p,k))=rank(G(p,k))

rank(G(p,k

1)),其中,G(p,k)为线性系统的可观性Gramian矩阵,λ
m
(A)表示矩阵A的最小特征值,rank(A)表示矩阵A的秩。5.根据权利要求1所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的步骤2)中,建立的无人机的侦测轨迹优化问题中包括确定目标函数和约束条件。6.根据权利要求5所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的目标函数J的表达式为:其中,表示求均值算子,γ表示对未来损失的权重的衰减因子,0<γ<1;所述的约束条件的表达式为:s
k+1
=g(s
k
,a
k
),k=1,...,n

1,n为终点时刻;λ
m
(G(p,n))≥∈其中,a
k≥1
表示控制变量的输入序列,λ
m
(G(p,n))表示矩阵G(p,n)的最小特征值,物理意义为无人机到达最终时刻所获得的信息量,∈为一个给定上界。7.根据权利要求1所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的步骤3)中,设计强化学习求解算法包括构建并更新两个评价网络以及构建并更新策略网络。8.根据权利要求7所述的一种基于深度强化学习的无人机侦测轨迹规划方法,其特征在于:所述的构建评价网络的方法为:使用μ
j
参数化两个评价网络μ
j<...

【专利技术属性】
技术研发人员:孙健李卓陈杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1