【技术实现步骤摘要】
一种基于深度确定性策略的跳频智能抗干扰决策方法
[0001]本专利技术属于无线通信中跳频抗干扰领域,特别涉及一种基于深度确定性策略的跳频智能抗干扰决策方法。
技术介绍
[0002]随着科技的进步,无线通信技术的发展突飞猛进,应用范围涉及各行各业。但由于传输介质的开放性,使得无线网络容易受到干扰的攻击。随着科技的发展,干扰样式越来越多,电磁环境复杂多变,面对这些未知的动态干扰时,传统抗干扰技术可能完全失效。因此研究智能通用的跳频抗干扰决策算法对于提高通信系统的质量和安全性具有重要意义。
[0003]抗干扰决策是抗干扰通信系统的核心,决策过程的本质是根据环境信息和信道质量,在一定的约束条件下,依据决策准则,自适应地在解空间中寻找到抗干扰策略的最优解的过程。由于抗干扰决策是在一个动态随机的电磁环境中进行的,因此,从本质上来说属于序贯决策问题,即发射机需要根据环境变化不断调整抗干扰策略并生成最优通信参数,同时根据抗干扰效果进一步优化抗干扰策略。近年来发展势头迅猛的强化学习算法正是适合且擅长解决序贯决策问题,它通过不断与环境交互试错并根据环境反馈指导策略优化并最终找到最优策略的机制进行自主学习,同时无需过多的先验信息和预先提供的大量训练数据。因此众多学者将强化学习算法应用于通信抗干扰领域
[0004]但是现有基于深度强化学习方法的抗干扰方法往往是通过神经网络学习策略来躲避干扰,虽然当前时刻可以取得较好的抗干扰效果,然而通信用户以往信号波形以及频率决策信息可能已经暴露。若智能干扰机提前获取发射机的通信频率并施加干 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于包括以下步骤:步骤1、建立双变跳频通信系统模型;步骤2、建立双变跳频通信系统抗干扰决策模型;步骤3、基于强化学习的优化问题转换;步骤4、基于HDP
‑
DDPG的双变跳频通信系统抗干扰决策;步骤5、训练HDP
‑
DDPG网络,输出抗干扰决策模型。2.根据权利要求1所述的一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于步骤1所述的建立双变跳频通信系统模型,具体如下:常规跳频信号的数学模型表示为:其中,f
c
为最小跳频频率,ρ
l
为根据伪随机序列产生的频率控制字,用来控制跳频频率的变化,f
l
为最小跳频频率间隔,g(t)为长度T
c
的脉冲函数,T
c
为每一跳的驻留时间,T
c
时间内,跳频频率根据ρ
l
的值来确定;“双变”跳频通信技术的主要特点是各跳频频率之间的间隔不再是f
l
的整数倍,而是指定范围内的任意值,即最小跳频频率间隔f
l
用一个时变量f
c
(ρ
l
)来代替,其中ρ
l
是伪随机序列产生的频率控制字;跳频速率v不再是固定不变,而是在多个跳速等级上伪随机非线性变化;相应地,每一跳的驻留时间T
c
也在伪随机非线性变化,即用T
c
(ρ
l
)来替换T
c
;因此"双变"跳频信号能够表示为:设双变跳频系统的跳速v∈[V
l
,V
u
],频率间隔d∈[D
l
,D
u
],则在第k跳中用户采用跳速v
k
对应的驻留时间T
c,k
和跳频频率f
c,k
分别如式(3)和式(4)所示;f
c,k
=f
c,k
‑1±
d
k
,d
k
∈[D
l
,D
u
]
ꢀꢀꢀꢀꢀ
(4)。3.根据权利要求1所述的一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于步骤2所述的建立双变跳频通信系统抗干扰决策模型,具体如下:考虑一对收发用户利用双变跳频系统在一个拥有J个干扰机的无线电环境中进行通信的场景;在第k跳干扰机j可以随意选择一个频带进行干扰,其功率谱密度记为通信用户在智能体的指导下,选择一个频率f
c,k
∈[F
l
,F
u
],并发送一个给定功率为的信号进行通信;其中U(f)和BW分别代表基带信号的功率谱密度和带宽;通信用户的跳频速率v∈[V
l
,V
u
],频率间隔d∈[D
l
,D
u
],信源速率为b
tr
;当感知到干扰后,发信方通过改变跳频速率和频率间隔的跳频参数避开干扰,保证通信质量;为了提高通信质量,需要尽量降低通信期间用户的误码率BER;在Δ时间内,通信过程中误码率由式(5)表示;
其中,BER
k
表示第k跳的误码率;由于在每个时刻误码率与信干噪比成反比,最小化误码率等价于最大化信干噪比SINR;因此,优化问题可以表述为:其中,约束条件(a)给出了第k跳中信干噪比计算方式,h
k
为第k跳的平均信道增益,p
tr
为发射功率,J
k
为第k跳的干扰总功率,n
k
为第k跳的噪声总功率;约束条件(b)给出了干扰总功率的计算方法;约束条件(c)给出了噪声总功率的计算方法,n(f)为高斯白噪声噪声功率谱密度;约束条件(d)表示第k跳的频率可由k
‑
1跳的频率以及频率间隔决定;约束条件(e)表示第k跳的驻留时间可由跳速确定;将强化学习应用到抗干扰决策上,充分利用其无需过多先验信息和大量训练数据的优势,在复杂未知的干扰环境中利用其持续交互试错的学习结果自主学习最优的抗干扰策略;最终将学习到一个从状态s
k
到动作a
k
的最优映射策略a
k
=μ
*
(s
k
),使得决策智能体在未来连续的一段时间内,根据该策略进行连续参数决策,可得到最大的信干噪比。4.根据权利要求3所述的一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于步骤3所述的基于强化学习的优化问题转换,具体如下:为了获得最优的抗干扰策略μ
*
,将通信参数决策空间定义为连续空间,并利用DDPG深度强化学习算法进行求解;首先将该问题转化为马尔科夫决策过程;在马尔科夫决策过程中,智能体会感知当前的系统状态,按策略实施动作,从而改变环境的状态并得到奖励;下面将结合具体系统模型,对马尔科夫决策过程中的参数进行设计;(1)动作及状态空间:定义用户当前所在跳数以及通信频率为状态的参量,状态表示为二维连续变量s
k
=[k,f
c,k
],定义动作为二维连续变量a
k
=[v
k
,d
k
];k跳时,用户位于状态s
k
=[k,f
c,k
],采取动作a
k
=[v
k
,d
k
]后进入下一状态s
k+1
=[k+1,f
c,k+1
];(2)奖励:在智能体的引导下每执行一步,用户都将获得执行所选动作后的即时奖励;优化目标是获得最大化系统的信干噪比,而强化学习算法的目标是最大化长期累积回报期望E(G
k
),定义长期累积回报其中γ是折扣因子,r
k
是k跳的即时奖励,定义即时奖励如下:r
k
=SINR
k
ꢀꢀꢀꢀꢀꢀ
(7)。5.根据权利要求4所述的一种基于深度确定性策略的跳频智能抗干扰决策方法,其特
征在于步骤4所述的基于HDP
‑
DDPG的双变跳频通信系统抗干扰决策,具体如下:其中HDP
‑
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。