当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于深度强化学习的无人机中继抗干扰方法技术

技术编号:30374865 阅读:43 留言:0更新日期:2021-10-16 18:02
本发明专利技术提供一种基于深度强化学习的无人机中继抗干扰方法,包括:步骤1、搭建无人机协作通信网络,包括地面节点、源无人机、中继无人机、智能干扰机和固定干扰机;步骤2、将观察到的当前时隙的状态作为目标Q神经网络的输入,分析后得到所有动作的Q值,根据ε

【技术实现步骤摘要】
一种基于深度强化学习的无人机中继抗干扰方法


[0001]本专利技术涉及无人机
,尤其涉及一种基于深度强化学习的无人机中继抗干扰方法。

技术介绍

[0002]由于无线通信的广播性质,单架无人机与地面站之间的通信很容易受到地面敌意干扰机的干扰。除此之外,通常单架无人机执行任务时距离地面站较远,路径损耗会很大。在这两个主要因素的影响下,单架无人机与地面站之间的直通链路会受到更加严重的干扰,造成接收信号质量下降、信息误差或者丢失。
[0003]传统的无人机抗干扰方案大多是通过优化发射功率来提高抗干扰性能,但是,当源无人机距离地面站较远时,路径损耗非常大,仅仅通过优化源无人机的发射功率无法实现理想的抗干扰性能。同时,传统的无人机抗干扰方案需要知道具体的信道模型和干扰模型来优化发射功率,这极大的限制了方案在实际场景中的应用效果。

技术实现思路

[0004]本专利技术要解决的技术问题,在于提供一种基于深度强化学习的无人机中继抗干扰方法,可在不知道具体干扰模型和信道模型的情况下,显著提高通信系统的抗干扰性能。
[0005]本专利技术是这样实现的,一种基于深度强化学习的无人机中继抗干扰方法,包括:
[0006]步骤1、搭建无人机协作通信网络,包括地面节点、源无人机、中继无人机、智能干扰机和固定干扰机,地面节点与源无人机之间通过中继无人机转发消息,干扰机对地面节点和中继无人机节点同时发射干扰信号,所述通信网络中的无人机节点集定义为U={U
n
},0≤n≤N,U0为源无人机节点,U
r
为中继无人机节点,1≤r≤N;
[0007]步骤2、将观察到的当前时隙的状态作为目标Q神经网络的输入,经目标Q神经网络分析后得到所有动作的Q值,根据ε

greedy策略来选择当前时隙的动作,计算当前时隙下的误比特率、信号干扰噪声比、中断率和效益,观察下一个时隙的状态,将经验e存放到经验池中,从经验池中随机抽取若干个历史经验并采用随机梯度下降算法更新Q神经网络参数θ,所述当前时隙的状态包括上一个时隙的发射功率、上一个时隙的误比特率和上一个时隙的信号干扰噪声比,所述动作包括当前时隙的发射功率和当前时隙的中继无人机,所述经验e包括当前时隙的状态、当前时隙的动作、当前时隙的效益和下一时隙的状态;
[0008]步骤3、依次对划分的时隙执行步骤2中的操作,并在每间隔固定时隙T更新一次目标Q网络的参数令
[0009]进一步的,在第k个时隙,U0选择一个U
r
,并以p
(k)
的发射功率向U
r
发送消息,U
r
接收到消息之后,计算接收消息的信号干扰噪声比和误比特率并判断传输是否中断,若传输没有中断,U
r
再以固定的中继功率p
r
向地面节点中继消息,地面节点接收到消息之后,计算接收消息的信号干扰噪声比和误比特率并判断传输是否中断,若传输没有中
断那么整个通信过程的信号干扰噪声比和误比特率的获取方式如下:
[0010][0011][0012]进一步的,所述“判断传输是否中断”的方式具体为:将信号干扰噪声比与阈值τ比较,若信号干扰噪声比大于所述阈值τ,则判为通信过程没有中断。
[0013]进一步的,所述中断率的计算公式如下:
[0014][0015]进一步的,用J1表示智能干扰机,J2表示固定干扰机,所述智能干扰机J1的干扰功率最大为J
max
,干扰功率被量化成Y级,B为干扰功率集,智能干扰机采取动作之后的效益计算公式如下:
[0016][0017]其中i等于0或1,C
j
表示智能干扰机能耗的权重,I{
·
}代表中断指示函数,如果此次传输中断(O=1)则为1,没中断(O=0)则为0,智能干扰机J1通过观察上一个时隙的信号干扰噪声比ρ
(k

1)
,选择干扰功率,目的是提高中断率和最大化效益,固定干扰机J2的干扰功率一直保持一个固定的值。由于干扰机全方位发射干扰信号,中继无人机U
r
和地面节点都会受到干扰,对于智能干扰机,需要通过强化学习来选择自己的干扰功率。
[0018]进一步的,所述信号干扰噪声比的具体计算公式如下:
[0019][0020]其中,ρ
m

n
表示m节点发送消息到n节点时,n节点接收消息的信号干扰噪声比,p表示m节点的发射功率,h
m

n
表示m节点到n节点路径损耗的dB值的倍数,p
Ji
表示干扰机的功率,其中,i取1或0,p
J1
表示智能干扰机J1的功率,p
J2
表示固定干扰机J2的功率,h
i

n
表示什么干扰机Ji节点到n节点路径损耗的dB值的倍数,σ2为背景噪声的功率;
[0021]所述h
m

n
的计算公式如下:
[0022][0023]其中L
m

n
(r)表示m节点到n节点的路径损耗,具体计算公式如下:
[0024][0025]所述r为m、n两个节点之间的欧氏距离,0≤m≠n≤N,c为光速,f为通信频率,α
p
表示路径损耗指数,当m和n节点为源无人机节点和中继无人机节点时,α
p
=2.05,当m和n节点为中继无人机和地面节点时,α
p
=2.32。
[0026]进一步的,所述误比特率的计算公式如下:
[0027][0028]其中,ρ表示信号干扰噪声比。
[0029]进一步的,所述效益的计算公式如下:
[0030]u
(k)
=10

δb
(k)

C
u
p
(k)
[0031]其中δ表示误比特率的权重,C
u
表示能耗的权重。
[0032]进一步的,所述Q神经网络参数θ的更新公式如下:
[0033][0034]其中s,x,u,s

分别表示经验e中的状态、动作、效益和下一个状态,γ表示折扣因子,x

表示s

状态下的动作,表示在下一个状态s

时选择动作x

后对应的Q值,α表示学习率。
[0035]本专利技术的优点在于:采用深度强化学习算法同时优化源无人机的发射功率和中继无人机,能够有效降低通信系统的误比特率和中断率,提高抗干扰性能的同时,有效降低源无人机的能耗,且无需知道具体的信道模型和干扰模型,更加适合实际应用,便于推广。
附图说明
[0036]下面参照附图结合实施例对本专利技术作进一步的说明。
[0037]图1为本专利技术一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人机中继抗干扰方法,其特征在于:包括:步骤1、搭建无人机协作通信网络,包括地面节点、源无人机、中继无人机、智能干扰机和固定干扰机,地面节点与源无人机之间通过中继无人机转发消息,干扰机对地面节点和中继无人机节点同时发射干扰信号,所述通信网络中的无人机节点集定义为U={U
n
},0≤n≤N,U0为源无人机节点,U
r
为中继无人机节点,1≤r≤N;步骤2、将观察到的当前时隙的状态作为目标Q神经网络的输入,经目标Q神经网络分析后得到所有动作的Q值,根据ε

greedy策略来选择当前时隙的动作,计算当前时隙下的误比特率、信号干扰噪声比、中断率和效益,观察下一个时隙的状态,将经验e存放到经验池中,从经验池中随机抽取若干个历史经验并采用随机梯度下降算法更新Q神经网络参数θ,所述当前时隙的状态包括上一个时隙的发射功率、上一个时隙的误比特率和上一个时隙的信号干扰噪声比,所述动作包括当前时隙的发射功率和当前时隙的中继无人机,所述经验e包括当前时隙的状态、当前时隙的动作、当前时隙的效益和下一时隙的状态;步骤3、依次对划分的时隙执行步骤2中的操作,并在每间隔固定时隙T更新一次目标Q网络的参数令2.如权利要求1所述的一种基于深度强化学习的无人机中继抗干扰方法,其特征在于:在第k个时隙,U0选择一个U
r
,并以p
(k)
的发射功率向U
r
发送消息,U
r
接收到消息之后,计算接收消息的信号干扰噪声比和误比特率并判断传输是否中断,若传输没有中断,U
r
再以固定的中继功率p
r
向地面节点中继消息,地面节点接收到消息之后,计算接收消息的信号干扰噪声比和误比特率并判断传输是否中断,若传输没有中断那么整个通信过程的信号干扰噪声比和误比特率的获取方式如下:方式如下:3.如权利要求2所述的一种基于深度强化学习的无人机中继抗干扰方法,其特征在于:所述“判断传输是否中断”的方式具体为:将信号干扰噪声比与阈值τ比较,若信号干扰噪声比大于所述阈值τ,则判为通信过程没有中断。4.如权利要求3所述的一种基于深度强化学习的无人机中继抗干扰方法,其特征在于:所述中断率的计算公式如下:5.如权利要求2所述的一种基于深度强化学习的无人机中继抗干扰方法,其特征在于:用J1表示智能干扰机,J2表示固定干扰机,所述智能干扰机J1的干扰功率最大为J
max
,干扰功率被量化成Y级,B为干扰功率集,智能干扰机采取动作之后的效益计算公式如下:其中i等于0或1,C
j
表示智能干扰机能耗的权重,I{
·
}代表中断指示...

【专利技术属性】
技术研发人员:赵睿刘浩然
申请(专利权)人:华侨大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1