一种基于深度确定性策略的跳频智能抗干扰决策方法技术

技术编号:37506450 阅读:23 留言:0更新日期:2023-05-07 09:43
本发明专利技术公开了一种基于深度确定性策略的跳频智能抗干扰决策方法。本发明专利技术包括:步骤1、建立双变跳频通信系统模型;步骤2、建立双变跳频通信系统抗干扰决策模型;步骤3、基于强化学习的优化问题转换;步骤4、基于HDP

【技术实现步骤摘要】
一种基于深度确定性策略的跳频智能抗干扰决策方法


[0001]本专利技术属于无线通信中跳频抗干扰领域,特别涉及一种基于深度确定性策略的跳频智能抗干扰决策方法。

技术介绍

[0002]随着科技的进步,无线通信技术的发展突飞猛进,应用范围涉及各行各业。但由于传输介质的开放性,使得无线网络容易受到干扰的攻击。随着科技的发展,干扰样式越来越多,电磁环境复杂多变,面对这些未知的动态干扰时,传统抗干扰技术可能完全失效。因此研究智能通用的跳频抗干扰决策算法对于提高通信系统的质量和安全性具有重要意义。
[0003]抗干扰决策是抗干扰通信系统的核心,决策过程的本质是根据环境信息和信道质量,在一定的约束条件下,依据决策准则,自适应地在解空间中寻找到抗干扰策略的最优解的过程。由于抗干扰决策是在一个动态随机的电磁环境中进行的,因此,从本质上来说属于序贯决策问题,即发射机需要根据环境变化不断调整抗干扰策略并生成最优通信参数,同时根据抗干扰效果进一步优化抗干扰策略。近年来发展势头迅猛的强化学习算法正是适合且擅长解决序贯决策问题,它通过不断与环境交互试错并根据环境反馈指导策略优化并最终找到最优策略的机制进行自主学习,同时无需过多的先验信息和预先提供的大量训练数据。因此众多学者将强化学习算法应用于通信抗干扰领域
[0004]但是现有基于深度强化学习方法的抗干扰方法往往是通过神经网络学习策略来躲避干扰,虽然当前时刻可以取得较好的抗干扰效果,然而通信用户以往信号波形以及频率决策信息可能已经暴露。若智能干扰机提前获取发射机的通信频率并施加干扰则会导致通信失败。

技术实现思路

[0005]本专利技术针对现有跳频通信系统的抗干扰决策的局限性,提出一种基于深度确定性策略的跳频智能抗干扰决策方法,称为HDP

DDPG。具体的,一方面通过回放更多立即回报高和时间差分误差大的经验来训练模型,使模型预测更精准;另一方面通过周期性衰减学习率使得网络参数的更新速度呈周期性变化,探索速度丰富多样,易于跳出局部最优,最后训练HDP

DDPG网络,得到最终决策模型。
[0006]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0007]步骤1、建立双变跳频通信系统模型;
[0008]步骤2、建立双变跳频通信系统抗干扰决策模型;
[0009]步骤3、基于强化学习的优化问题转换;
[0010]步骤4、基于HDP

DDPG的双变跳频通信系统抗干扰决策;
[0011]步骤5、训练HDP

DDPG网络,输出抗干扰决策模型。
[0012]本专利技术的有益效果是:
[0013]本专利技术将复杂电磁干扰中智能参数决策问题表述为一个马尔科夫决策过程,以获
得最高的信干噪比(signal to inference plus noise ratio,SINR)。为了利用深度强化学习求解,根据优化问题设计了连续状态和动作及奖励形式,提出了一种深度确定性策略来处理连续空间问题。
[0014]为了改善深度确定性策略的收敛速度慢和收敛不稳定等问题,本专利技术提出一种混合双经验池与周期更新学习率的深度确定性策略(HDP

DDPG)。该算法通过周期衰减的学习率增强算法的探索多样性。同时,设计一种复合的经验优先级计算方式,使得Agent在选择经验样本时综合考虑立即回报和时间差分误差(TD

error),从而有效提高了经验样本的利用效率,避免了陷入局部最优,加快了网络的收敛速度。
附图说明
[0015]图1为本专利技术方法流程示意图
[0016]图2为本专利技术与现有技术的仿真评估示意图。
具体实施方式
[0017]下面对本专利技术作进一步详细说明本专利技术的实施步骤。
[0018]如图1所示,一种基于深度确定性策略的跳频智能抗干扰决策方法,具体包括如下步骤:
[0019]步骤1、建立双变跳频通信系统模型,具体如下:
[0020]常规跳频信号的数学模型表示为:
[0021][0022]其中,f
c
为最小跳频频率,ρ
l
为根据伪随机序列产生的频率控制字,用来控制跳频频率的变化,f
l
为最小跳频频率间隔,g(t)为长度T
c
的脉冲函数,T
c
为每一跳的驻留时间,T
c
时间内,跳频频率根据ρ
l
的值来确定。
[0023]“双变”跳频通信技术将常规跳频中固定不变的跳速和频率间隔赋以时变特征。其主要特点是各跳频频率之间的间隔不再是f
l
的整数倍,而是指定范围内的任意值,即最小跳频频率间隔f
l
用一个时变量f
c
(a
l
)来代替,其中a
l
是伪随机序列产生的频率控制字;跳频速率v不再是固定不变,而是在多个跳速等级上伪随机非线性变化;相应地,每一跳的驻留时间T
c
也在伪随机非线性变化,即用T
c
(a
l
)来替换T
c
;因此"双变"跳频信号能够表示为:
[0024][0025]设双变跳频系统的跳速v∈[V
l
,V
u
],频率间隔d∈[D
l
,D
u
],则在第k跳中用户采用跳速v
k
对应的驻留时间T
c,k
和跳频频率f
c,k
分别如式(3)和式(4)所示;
[0026][0027]f
c,k
=f
c,k
‑1±
d
k
,d
k
∈[D
l
,D
u
] (4)
[0028]步骤2、建立双变跳频通信系统抗干扰决策模型,具体如下:
[0029]考虑一对收发用户利用双变跳频系统在一个拥有J个干扰机的无线电环境中进行通信的场景;在第k跳干扰机j可以随意选择一个频带进行干扰,其功率谱密度记为
通信用户在智能体的指导下,选择一个频率f
c,k
∈[F
l
,F
u
],并发送一个给定功率为的信号进行通信;其中U(f)和BW分别代表基带信号的功率谱密度和带宽;通信用户的跳频速率v∈[V
l
,V
u
],频率间隔d∈[D
l
,D
u
],信源速率为b
tr
;当感知到干扰后,发信方通过改变跳频速率和频率间隔的跳频参数避开干扰,保证通信质量;
[0030]为了提高通信质量,需要尽量降低通信期间用户的误码率(bit error ratio,BER)。在Δ时间内,通信过程中误码率由式(5)表示。
[0031][00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于包括以下步骤:步骤1、建立双变跳频通信系统模型;步骤2、建立双变跳频通信系统抗干扰决策模型;步骤3、基于强化学习的优化问题转换;步骤4、基于HDP

DDPG的双变跳频通信系统抗干扰决策;步骤5、训练HDP

DDPG网络,输出抗干扰决策模型。2.根据权利要求1所述的一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于步骤1所述的建立双变跳频通信系统模型,具体如下:常规跳频信号的数学模型表示为:其中,f
c
为最小跳频频率,ρ
l
为根据伪随机序列产生的频率控制字,用来控制跳频频率的变化,f
l
为最小跳频频率间隔,g(t)为长度T
c
的脉冲函数,T
c
为每一跳的驻留时间,T
c
时间内,跳频频率根据ρ
l
的值来确定;“双变”跳频通信技术的主要特点是各跳频频率之间的间隔不再是f
l
的整数倍,而是指定范围内的任意值,即最小跳频频率间隔f
l
用一个时变量f
c

l
)来代替,其中ρ
l
是伪随机序列产生的频率控制字;跳频速率v不再是固定不变,而是在多个跳速等级上伪随机非线性变化;相应地,每一跳的驻留时间T
c
也在伪随机非线性变化,即用T
c

l
)来替换T
c
;因此"双变"跳频信号能够表示为:设双变跳频系统的跳速v∈[V
l
,V
u
],频率间隔d∈[D
l
,D
u
],则在第k跳中用户采用跳速v
k
对应的驻留时间T
c,k
和跳频频率f
c,k
分别如式(3)和式(4)所示;f
c,k
=f
c,k
‑1±
d
k
,d
k
∈[D
l
,D
u
]
ꢀꢀꢀꢀꢀ
(4)。3.根据权利要求1所述的一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于步骤2所述的建立双变跳频通信系统抗干扰决策模型,具体如下:考虑一对收发用户利用双变跳频系统在一个拥有J个干扰机的无线电环境中进行通信的场景;在第k跳干扰机j可以随意选择一个频带进行干扰,其功率谱密度记为通信用户在智能体的指导下,选择一个频率f
c,k
∈[F
l
,F
u
],并发送一个给定功率为的信号进行通信;其中U(f)和BW分别代表基带信号的功率谱密度和带宽;通信用户的跳频速率v∈[V
l
,V
u
],频率间隔d∈[D
l
,D
u
],信源速率为b
tr
;当感知到干扰后,发信方通过改变跳频速率和频率间隔的跳频参数避开干扰,保证通信质量;为了提高通信质量,需要尽量降低通信期间用户的误码率BER;在Δ时间内,通信过程中误码率由式(5)表示;
其中,BER
k
表示第k跳的误码率;由于在每个时刻误码率与信干噪比成反比,最小化误码率等价于最大化信干噪比SINR;因此,优化问题可以表述为:其中,约束条件(a)给出了第k跳中信干噪比计算方式,h
k
为第k跳的平均信道增益,p
tr
为发射功率,J
k
为第k跳的干扰总功率,n
k
为第k跳的噪声总功率;约束条件(b)给出了干扰总功率的计算方法;约束条件(c)给出了噪声总功率的计算方法,n(f)为高斯白噪声噪声功率谱密度;约束条件(d)表示第k跳的频率可由k

1跳的频率以及频率间隔决定;约束条件(e)表示第k跳的驻留时间可由跳速确定;将强化学习应用到抗干扰决策上,充分利用其无需过多先验信息和大量训练数据的优势,在复杂未知的干扰环境中利用其持续交互试错的学习结果自主学习最优的抗干扰策略;最终将学习到一个从状态s
k
到动作a
k
的最优映射策略a
k
=μ
*
(s
k
),使得决策智能体在未来连续的一段时间内,根据该策略进行连续参数决策,可得到最大的信干噪比。4.根据权利要求3所述的一种基于深度确定性策略的跳频智能抗干扰决策方法,其特征在于步骤3所述的基于强化学习的优化问题转换,具体如下:为了获得最优的抗干扰策略μ
*
,将通信参数决策空间定义为连续空间,并利用DDPG深度强化学习算法进行求解;首先将该问题转化为马尔科夫决策过程;在马尔科夫决策过程中,智能体会感知当前的系统状态,按策略实施动作,从而改变环境的状态并得到奖励;下面将结合具体系统模型,对马尔科夫决策过程中的参数进行设计;(1)动作及状态空间:定义用户当前所在跳数以及通信频率为状态的参量,状态表示为二维连续变量s
k
=[k,f
c,k
],定义动作为二维连续变量a
k
=[v
k
,d
k
];k跳时,用户位于状态s
k
=[k,f
c,k
],采取动作a
k
=[v
k
,d
k
]后进入下一状态s
k+1
=[k+1,f
c,k+1
];(2)奖励:在智能体的引导下每执行一步,用户都将获得执行所选动作后的即时奖励;优化目标是获得最大化系统的信干噪比,而强化学习算法的目标是最大化长期累积回报期望E(G
k
),定义长期累积回报其中γ是折扣因子,r
k
是k跳的即时奖励,定义即时奖励如下:r
k
=SINR
k
ꢀꢀꢀꢀꢀꢀ
(7)。5.根据权利要求4所述的一种基于深度确定性策略的跳频智能抗干扰决策方法,其特
征在于步骤4所述的基于HDP

DDPG的双变跳频通信系统抗干扰决策,具体如下:其中HDP

【专利技术属性】
技术研发人员:张煜培赵知劲
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1