一种基于PPER-DQN的双变跳频图案智能决策方法技术

技术编号:30079940 阅读:15 留言:0更新日期:2021-09-18 08:36
本发明专利技术公开了一种基于PPER

【技术实现步骤摘要】
一种基于PPER

DQN的双变跳频图案智能决策方法


[0001]本专利技术属于跳频通信中智能抗干扰决策领域,特别涉及一种利用结合了优先经验回放方法和Pareto理论的深度Q网络(Deep QNetwork,DQN)对双变跳频图案进行参数调整的智能抗干扰决策方法。

技术介绍

[0002]较传统通信系统,跳频通信系统具有跳频频率集、跳频速率等对系统性能影响极大的参数。根据这些参数,用户能实现通信过程中的频率跳变,从而达到抗干扰和抗截获的目的。但是,传统跳频通信中的参数并不会随着环境变化,这导致在日益复杂的电磁环境和逐渐智能化的人为干扰的影响下,其优势难以体现。
[0003]性能优异的跳频图案能有效规避干扰,显著提高抗干扰性能,提高用户的通信质量。目前关于跳频图案的研究大多是先进行频谱感知,再在未被干扰的频段设计跳频图案,且设计重点集中于各种伪随机序列及其改进和加密方面。然而,在复杂电磁环境中,无法保证时刻进行准确地感知且未被干扰的频段较少,这将极大程度的限制跳频图案的性能。有研究表明变跳速、变间隔跳频通信技术增加了干扰方信号分析的难度,可有效提高系统抗跟踪干扰、梳状干扰、阻塞干扰和抗截获的能力,同时还具备与频率自适应、功率自适应等技术结合的潜力,从而进一步提升抗干扰能力。由此可见,跳频图案参数智能决策对提升跳频通信系统的抗干扰性能具有重要意义。
[0004]Q

Learning通过Agent与环境不断进行交互和学习能够得到最佳的决策。然而,其存在维数爆炸的问题,深度Q网络算法(Deep Q

Network,DQN)则有效弥补了该缺陷,且目前已被广泛应用在各种大规模复杂环境的决策问题中。另外,由于DQN不需要干扰环境的先验知识,故适合在复杂电磁环境下使用。为更有效地减小Agent与环境交互的代价,提高样本利用率和经验回放的效率,优先经验回放法(Prioritized Experience Replay,PER)被用于改进DQN算法。其根据经验池中样本的TD

error为样本赋予不同的优先度,并按与优先级成正比的概率进行采样,从而提高了样本集的质量和算法效率。

技术实现思路

[0005]本专利技术针对现有智能抗干扰决策问题的局限性,综合考虑调整跳频系统中跳频图案的跳速和信道划分间隔,以产生双变跳频图案,达到在复杂电磁环境中对抗干扰,提高通信质量的目的。因此,本专利技术提出了一种基于PPER

DQN的双变跳频图案智能决策方法,提高决策效率,产生的双变跳频图案,其较常规跳频图案性能更优。
[0006]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0007]步骤1、根据感知到的频谱状态,估计干扰的主要参数,预测未来短时间Δ内的频谱状态。
[0008]步骤2、初始化估值Q网络、目标Q网络、经验池和Sumtree存储结构,设置网络的学习率l
r
、目标Q网络的更新周期T
tar
、采样样本数量M、折扣因子γ、参数α、β、λ、η、ξ、z、G以及
总训练回合数随机初始化状态s0。
[0009]步骤3、对于当前状态s
t
,根据动作选择策略及估值Q网络选择最佳动作a
t
并执行,得到下一状态s
t+1
,代入奖赏函数计算立即奖励r
t

[0010]步骤4、判断s
t+1
是否满足终止该训练回合的条件,将样本按当前状态s
t
、动作a
t
、下一状态s
t+1
、立即奖励r
t
、是否满足结束条件的形式存入经验池,赋予当前经验池最大优先级并更新Sumtree。
[0011]步骤5、当经验池未被填满时,跳转至步骤11,否则,继续执行。
[0012]步骤6、若迭代次数t达到目标Q网络更新周期T
tar
则更新估值Q网络,否则不更新。
[0013]步骤7、采用基于Pareto样本的优先经验回放方法,根据存储时长计算置信度并调整样本优先度,从经验池中筛选Pareto样本,利用Sumtree结构根据优先级p
i
分别从Pareto样本集和非Pareto样本集采集样本形成训练集。
[0014]步骤8、根据估值Q网络、目标Q网络分别计算训练集样本的TD

error、优先度p
i
和目标值y
i
。再进一步计算各个样本的采样概率P
i
'、重要性采样权重w
i
和网络的损失函数L(θ
val
)并通过神经网络的梯度反向传播更新估值Q网络的参数θ
val

[0015]步骤9、更新训练集样本的TD

error、经验池样本的优先级和Sumtree。
[0016]步骤10、更新状态,s
t

s
t+1

[0017]步骤11、若网络训练回合数达到则结束算法,否则,返回步骤3。
[0018]步骤1具体方法如下:
[0019]根据频谱感知的结果确定干扰的类型并估计其主要参数,假设未来Δ时间内干扰的状态参数不变,建立干扰环境频谱瀑布图。
[0020]步骤2具体方法如下:
[0021]DQN对Q

Learning进行的其中部分改进如下:
[0022](1)使用深度神经网络模型代替Q表格拟合状态

动作函数,避免维数爆炸导致的计算量过大和计算效率低下的问题。
[0023](2)经验回放:建立经验池用于存放Agent产生的样本经验,并在每次迭代中从经验池均匀随机采样一部分经验用于训练网络,通过随机采样的方式保证样本之间的独立性,提高网络训练的效率。
[0024]Agent根据自身的状态s
t
使用估值Q网络选择执行的动作a
t
,从而从环境中获得立即奖赏r
t
并转移至下一状态s
t+1
。Agent将每次和环境交互产生的样本存入经验池,在训练估值Q网络时从其中采样形成训练集。目标Q网络将帮助估值Q网络计算损失函数,用于更新估值Q网络的参数,而估值Q网络会定期将其参数赋值给前者,以实现目标Q网络的更新。
[0025]由此,初始化估值Q网络,其权重为服从均值为0、方差为0.1的高斯分布的随机数,将估值Q网络的参数赋予目标Q网络,完成目标Q网络的初始化,初始化经验池和Sumtree存储结构,设置网络的学习率l
r
、目标Q网络的更新周期T
tar
、单次采样样本数量M、折扣因子γ、其他参数α、β、λ、η、ξ、z、G以及总训练回合数T,随机初始化状态s0。
[0026]步骤3具体方法如下:...

【技术保护点】

【技术特征摘要】
1.一种基于PPER

DQN的双变跳频图案智能决策方法,其特征在于,步骤如下:步骤1、根据感知到的频谱状态,估计干扰的主要参数,预测未来短时间Δ内的频谱状态;步骤2、初始化估值Q网络、目标Q网络、经验池和Sumtree存储结构,设置网络的学习率l
r
、目标Q网络的更新周期T
tar
、采样样本数量M、折扣因子γ、参数α、β、λ、η、ξ、z、G以及总训练回合数T,随机初始化状态s0;步骤3、对于当前状态s
t
,根据动作选择策略及估值Q网络选择最佳动作a
t
并执行,得到下一状态s
t+1
,代入奖赏函数计算立即奖励r
t
;步骤4、判断s
t+1
是否满足终止该训练回合的条件,将样本按当前状态s
t
、动作a
t
、下一状态s
t+1
、立即奖励r
t
、是否满足结束条件的形式存入经验池,赋予当前经验池最大优先级并更新Sumtree;步骤5、当经验池未被填满时,跳转至步骤11,否则,继续执行;步骤6、若迭代次数t达到目标Q网络更新周期T
tar
则更新估值Q网络,否则不更新;步骤7、采用基于Pareto样本的优先经验回放方法,根据存储时长计算置信度并调整样本优先度,从经验池中筛选Pareto样本,利用Sumtree结构根据优先级p
i
分别从Pareto样本集和非Pareto样本集采集样本形成训练集;步骤8、根据估值Q网络、目标Q网络分别计算训练集样本的TD

error、优先度p
i
和目标值y
i
;再进一步计算各个样本的采样概率P
i
'、重要性采样权重w
i
和网络的损失函数L(θ
val
)并通过神经网络的梯度反向传播更新估值Q网络的参数θ
val
;步骤9、更新训练集样本的TD

error、经验池样本的优先级和Sumtree;步骤10、更新状态,s
t

s
t+1
;步骤11、若网络训练回合数达到则结束算法,否则,返回步骤3。2.根据权利要求1所述的一种基于PPER

DQN的双变跳频图案智能决策方法,其特征在于,步骤1具体方法如下:根据频谱感知的结果确定干扰的类型并估计其主要参数,假设未来Δ时间内干扰的状态参数不变,建立干扰环境频谱瀑布图。3.根据权利要求2所述的一种基于PPER

DQN的双变跳频图案智能决策方法,其特征在于,步骤2具体方法如下:DQN对Q

Learning进行的其中部分改进如下:(1)使用深度神经网络模型代替Q表格拟合状态

动作函数,避免维数爆炸导致的计算量过大和计算效率低下的问题;(2)经验回放:建立经验池用于存放Agent产生的样本经验,并在每次迭代中从经验池均匀随机采样一部分经验用于训练网络,通过随机采样的方式保证样本之间的独立性,提高网络训练的效率;Agent根据自身的状态s
t
使用估值Q网络选择执行的动作a
t
,从而从环境中获得立即奖赏r
t
并转移至下一状态s
t+1
;Agent将每次和环境交互产生的样本存入经验池,在训练估值Q网络时从其中采样形成训练集;目标Q网络将帮助估值Q网络计算损失函数,用于更新估值Q网络的参数,而估值Q网络会定期将其参数赋值给前者,以实现目标Q网络的更新;
由此,初始化估值Q网络,其权重为服从均值为0、方差为0.1的高斯分布的随机数,将估值Q网络的参数赋予目标Q网络,完成目标Q网络的初始化,初始化经验池和Sumtree存储结构,设置网络的学习率l
r
、目标Q网络的更新周期T
tar
、单次采样样本数量M、折扣因子γ、其他参数α、β、λ、η、ξ、z、G以及总训练回合数T,随机初始化状态s0。4.根据权利要求3所述的一种基于PPER

DQN的双变跳频图案智能决策方法,其特征在于,步骤3具体方法如下:引入非线性因素,采用如式(1)和(2)所示的动作选择策略;引入非线性因素,采用如式(1)和(2)所示的动作选择策略;其中,π(s
t
)为在第t次迭代中Agent在状态s
t
下选择的最佳动作,a
random
为随机选择的动作,rand∈[0,1]为随机数,λ用于控制ε下降的速率,为网络当前训练的回合数,为网络总训练回合数;定义Agent的状态s
t
为频率集,动作a
t
为跳速V和信道划分间隔D的联合分配;为实现最大化信干噪比的目标将奖励函数定义为该跳中Agent获得的信干噪比;其中,r
t
为第t次迭代中获得的立即奖励,为信号传输功率,J
t
和n0为第t次迭代中Agent受到的干扰功率和高斯白噪声,是由多种干扰的共同影响造成的,J
i
(f)和f
iJ
为第i种干扰的功率谱密度函数和干扰中心频率,n0(f)高斯白...

【专利技术属性】
技术研发人员:朱家晟赵知劲李春岳克强姜明
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1