一种基于深度强化学习的无人机路径优化方法、存储介质及设备技术

技术编号:37860178 阅读:12 留言:0更新日期:2023-06-15 20:50
一种基于深度强化学习的无人机路径优化方法、存储介质及设备,包括S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,S2:根据步骤S1的通信模型计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。本申请通过以上方案完成对无人机的飞行路径优化,避开弱覆盖区域,从而保证无人机与基站之间的连通性;同时采用深度强化学习算法提高了重要样本的利用率,获取更精确的回报值,更加有效地对无人机路径进行优化。有效地对无人机路径进行优化。有效地对无人机路径进行优化。

【技术实现步骤摘要】
一种基于深度强化学习的无人机路径优化方法、存储介质及设备


[0001]本专利技术涉及蜂窝网络下无人机与基站之间的通信连通性增强技术,属于无线信息传输领域;具体是针对一种基于深度强化学习的无人机路径优化方法、存储介质及设备。

技术介绍

[0002]近年来,蜂窝网络与无人机结合的通信方式受到广泛关注。首先,蜂窝网络基础设施遍布全球,可提供经济高效的通信链路,减少通信范围的限制。其次,可以降低延迟,提高数据传输速率,补充定位精度。然而蜂窝连接无人机的通信形式也存在一些问题。由于现有的蜂窝网络主要面向地面用户,基站天线通常是朝向地面倾斜的,导致无法保证完善的空中通信覆盖。同时,蜂窝连接的无人机易受到其它非关联基站的严重干扰。为了保证无人机的飞行安全以及任务完成效率,需要利用无人机的可控移动性,对无人机的飞行路径进行优化,避开弱覆盖区域,从而保证无人机与基站之间的连通性。
[0003]目前,在路径规划领域广泛使用的DQN算法存在以下问题:样本利用率低,即在回放经验池中进行重采样数据训练,原本的随机采样机制会导致训练样本种类比较单一,进而导致智能体对环境探索率较低,易获取局部最优解,降低训练速度。本专利技术提出了一种基于深度强化学习的无人机路径优化方法、存储介质及设备,该方法采用优先经验回放机制代替传统的均匀采样,在保证样本多样性的同时提高了重要样本的利用率,获取更精确的回报值,更加有效地对无人机路径进行优化。

技术实现思路

[0004]本专利技术针对现有技术中的不足,提供一种基于深度强化学习的无人机路径优化方法、存储介质及设备;通过在保证样本多样性的同时提高了重要样本的利用率,能够获取更精确的回报值,更加有效地对无人机路径进行优化。
[0005]为实现上述目的,本专利技术采用以下技术方案:
[0006]一种基于深度强化学习的无人机路径优化方法,包括以下步骤:
[0007]S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,其中,
[0008](一)场景模型:
[0009]设定无人机飞行区域范围D
×
D,以及在该范围内的障碍物高度和位置;
[0010]定义无人机在时刻t的位置为q(t)=(x
t
,y
t
),t∈[0,T],x
t
∈[0,D],y
t
∈[0,D],式中x
t
和y
t
表示无人机在时刻t位置的x坐标和y坐标;T表示无人机从起点位置至终点位置所用的飞行总时间;
[0011](二)基站天线辐射模型:
[0012]设定基站扇区共有M个,并构建出基站天线辐射模型A
A
(θ,φ),其中基站天线为多阵元均匀线阵;
[0013](三)信号模型:
[0014]分析无人机在q(t)位置与小区m,m∈M之间的路径损耗模型,包括视距路径损耗和非视距路径损耗
[0015]S2:计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,具体方法如下:
[0016]S2.1:根据步骤S1建立的通信模型,分析无人机在时刻t位置从小区m接收到的瞬时信号功率为y
m
(t)
[0017]S2.2:根据y
m
(t)计算时刻t的信号干扰比SIR(t);
[0018]S2.3:根据信号干扰比SIR(t)测量无人机在时刻t所在位置q(t)与每个关联小区b(t)间的通信中断概率P
out
(q(t),b(t));
[0019]S2.4:根据测量的通信中断概率,确定在q(t)位置的最佳关联小区b(t)
*

[0020][0021]S2.5:因此q(t)位置的通信覆盖概率=1

无人机在q(t)位置的中断概率,并将通信覆盖概率值保存到无线电覆盖概率图E中;其中无人机在q(t)位置的中断概率为P
out
(q(t)):
[0022][0023]S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。
[0024]为优化上述技术方案,采取的具体措施还包括:
[0025]进一步地,在步骤S1中,基站天线辐射模型中A
A
(θ,φ)构建过程如下:
[0026]A
A
(θ,φ)=G
E,max

min{

[A
E,V
(θ)+A
E,H
(φ)],A
m
}+10log
10
[1+ρ(|a
·
w
T
|2‑
1)][0027]式中,θ和φ分别是基站天线的俯仰角和方位角;G
E,max
是天线阵元在主瓣方向上的最大方向增益,A
E,V
(θ)和A
E,H
(φ)分别是天线的垂直和水平辐射图,A
m
是前后比,ρ为相关系数,a表示幅度向量,w为波束成形向量;
[0028]参量A
E,V
(θ)和A
E,H
(φ)的具体计算公式为:
[0029][0030][0031]式中,θ
3dB
和φ
3dB
分别是天线在垂直和水平方向的半功率波束宽度;SLA
V
是天线的旁瓣电平限制。
[0032]进一步地,在步骤S1中信号模型对于视距路径损耗和非视距路径损耗的计算内容如下:
[0033][0034][0035]式中,d
m
(q(t))是无人机在q(t)位置与小区m之间的距离;f
c
是载波频率;h是无人机在q(t)位置时所处的高度。
[0036]进一步地,在步骤S2.1中无人机在q(t)位置从小区m接收到的瞬时信号功率为y
m
(t)具体计算公式为:
[0037][0038]式中,P
m
是小区m的发射功率;h
m
(t)是t时刻的信道功率增益;β(q(t))表示在q(t)位置的基站天线增益,是一个随机变量,表示t时刻无人机与小区m之间的小尺度衰落;表示无人机在q(t)位置时与小区m之间的大尺度信道功率增益,其中LoS link表示是在视距路径链接下,NLoS link表示是在非视距路径链接下。
[0039]进一步地,在步骤S2.2中计算时刻t的信号干扰比SIR(t)的具体内容为:
[0040][0041]式中,b(t)表示t时刻无人机的某个关联小区;y
b(t)
(t)表示t时刻无人机从关联小区b(t)接收到的瞬时信号功率。
[0042]进一步地,在步骤S2.3中,计算P
out...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人机路径优化方法,其特征在于,包括以下步骤:S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,其中,(一)场景模型:设定无人机飞行区域范围D
×
D,以及在该范围内的障碍物高度和位置;定义无人机在时刻t的位置为q(t)=(x
t
,y
t
),t∈[0,T],x
t
∈[0,D],y
t
∈[0,D],式中x
t
和y
t
表示无人机在时刻t位置的x坐标和y坐标;T表示无人机从起点位置至终点位置所用的飞行总时间;(二)基站天线辐射模型:设定基站扇区共有M个,并构建出基站天线辐射模型A
A
(θ,φ),其中基站天线为多阵元均匀线阵;(三)信号模型:分析无人机在q(t)位置与小区m,m∈M之间的路径损耗模型,包括视距路径损耗和非视距路径损耗S2:计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,具体方法如下:S2.1:根据步骤S1建立的通信模型,分析无人机在时刻t位置从小区m接收到的瞬时信号功率为y
m
(t)S2.2:根据y
m
(t)计算时刻t的信号干扰比SIR(t);S2.3:根据信号干扰比SIR(t)测量无人机在时刻t所在位置q(t)与每个关联小区b(t)间的通信中断概率P
out
(q(t),b(t));S2.4:根据测量的通信中断概率,确定在q(t)位置的最佳关联小区b(t)
*
:S2.5:因此q(t)位置的通信覆盖概率=1

无人机在q(t)位置的中断概率,并将通信覆盖概率值保存到无线电覆盖概率图E中;其中无人机在q(t)位置的中断概率为P
out
(q(t)):S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。2.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S1中,基站天线辐射模型中A
A
(θ,φ)构建过程如下:A
A
(θ,φ)=G
E,max

min{

[A
E,V
(θ)+A
E,H
(φ)],A
m
}+10log
10
[1+ρ(|a
·
w
T
|2‑
1)]式中,θ和φ分别是基站天线的俯仰角和方位角;G
E,max
是天线阵元在主瓣方向上的最大方向增益,A
E,V
(θ)和A
E,H
(φ)分别是天线的垂直和水平辐射图,A
m
是前后比,ρ为相关系数,a表示幅度向量,w为波束成形向量;参量A
E,V
(θ)和A
E,H
(φ)的具体计算公式为:
式中,θ
3dB
和φ
3dB
分别是天线在垂直和水平方向的半功率波束宽度;SLA
V
是天线的旁瓣电平限制。3.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S1中信号模型对于视距路径损耗和非视距路径损耗的计算内容如下:下:式中,d
m
(q(t))是无人机在q(t)位置与小区m之间的距离;f
c
是载波频率;h是无人机在q(t)位置时所处的高度。4.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S2.1中无人机在q(t)位置从小区m接收到的瞬时信号功率为y
m
(t)具体计算公式为:式中,P
m
是小区m的发射功率;h
m
(t)是t时刻的信道功率增益;β(q(t))表示在q(t)位置的基站天线增益,的基站天线增益,是一个随机变量,表示t时刻无人机与小区m之间的小尺度衰落;表示无人机在q(t)位置时与小区m之间的大尺度信道功率增益,其中LoS link表示是在视距路径链接下,NLoS link表示是在非视距路径链接下。5.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S2.2中计算时刻t的信号干扰比SIR(t)的具体内容为:式中,b(t)表示t时刻无人机的某个关联小区;y
b(t)
(t)表示t时刻无人机从关联小区b(t)接收到的瞬时信号功率。6.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S2.3中,计算P
out
(q(t),b(t))的具体内容如下:S2.3.1:定义无人机在q(t)位置与某个关联小区b(t)之间通信的中断概率为P
out
(q(t),b(t)):式中,Pr(
·
)表示事件发生的概率;γ
th
为设置的阈值,当信号干扰比SIR(t)低于γ
th
时,视为无人机处于通信中断状态;S2.3.2:将信号干扰比SIR(t)改写为即将变量时刻t改为对应时刻
下的无人机位置q(t)、关联小区b(t)、无人机与关联小区b(t)之间小尺度衰落定义中断指示函数为中断指示函数为S2.3.3:根据步骤S2.3.2的内容将S2.3.1的中断概率P
out
(q(t),b(t))改写为的期望值:然后在一定时间内测量无人机与每个关联小区b(t)的信号干扰比SIR值J次,获得该位置无人机与每个关联小区b(t)的中断概率:式中,表示为t时刻无人机与关联小区b(t)之间小尺度衰落的第j个测量值。7.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S3,所述设定无人机飞行路径的优化目标的具体内容为:S3.1:构建连续优化目标函数:s.t.q(0)=q
s
q(T)=q
f
式中,T表示从无人机从起点到终点的飞行时间;μ是一个非负系数;q(0)表示初始时刻下无人机所在位置;q
s
代表无人机起始位置;q(T)表示末点时刻下无人机所在位置;q
f
代表无人机终点位置;S3.2:将步骤S3.1中对连续优化问题进行离散化处理,将无人机飞行区域划分为一系列相邻的网格点,最终目标函数等价于最小化无人机经过的网格点数N和预期中断概率的加权和:s.t.q0=q
s
q
N
=q
f
式中,q
n
表示无人机在划分网格中n,(n∈N)点的所在位置;P
out
(q
n
...

【专利技术属性】
技术研发人员:王鑫仲伟志王俊智肖丽君朱秋明林志鹏王洁
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1