一种基于深度强化学习的伪装干扰波形生成方法技术

技术编号:30082414 阅读:23 留言:0更新日期:2021-09-18 08:40
本发明专利技术属于电子干扰技术领域,具体涉及一种基于深度强化学习的伪装干扰波形生成方法。本发明专利技术通过构建深度强化学习探索模型,设计状态空间、动作空间、奖励函数,实现了基于深度强化学习的干扰波形生成,该模型中模拟了较为复杂的动态对抗过程,只需当前雷达状态就可以输出对应的干扰波形,在复杂或未知对抗场景下依然能够做出较为有效的干扰波形决策;通过构建伪装生成网络输出伪装信号,并与深度强化学习的生成的干扰信号叠加,得到带有伪装的干扰波形,使得已经训练完成的雷达智能识别网络误判,避免了干扰波形易被雷达方识别的问题,具有较好的干扰和伪装效果。有较好的干扰和伪装效果。有较好的干扰和伪装效果。

【技术实现步骤摘要】
一种基于深度强化学习的伪装干扰波形生成方法


[0001]本专利技术属于电子干扰
,具体涉及一种基于深度强化学习的伪装干扰波形生成方法。

技术介绍

[0002]干扰波形生成是电子干扰领域内的重要内容。为了提升己方目标突防的成功率,需要对敌方雷达进行有效的干扰,不同干扰波形在不同场景下对雷达的干扰效果是不同的,如何在不同场景下生成合适的干扰波形就变得至关重要。
[0003]传统的干扰波形生成方法是在通过侦察手段获取详细雷达参数先验信息的基础上,从固定的干扰策略库中选取或者凭借用户经验制定干扰策略,并从已有的波形库中选取干扰波形,对雷达施加有效的干扰。随着雷达方抗干扰措施的不断完善,人工寻找最佳干扰波形的方法逐渐被淘汰。为此,在获取雷达参数先验信息的基础上,智能算法被用来代替人工寻找最佳干扰波形,如遗传算法、蜂群算法、粒子群算法等,这些方法具有较快的决策速度。但上述方法无法处理或适应未知和复杂对抗场景中的干扰波形决策问题,尤其在面对智能化的雷达对抗系统所产生的参数动态变化时,这些方法就会失效。
[0004]西安电子科技大学在其申请的专利“基于深度强化学习的雷达干扰决策方法”(专利申请号:202010029684.3,申请公布号:CN111199127A)中提出了一种基于深度强化学习的雷达干扰决策方法。该方法虽然将深度强化学习应用到干扰决策中,但其构建的动态对抗过程较为简单,仅包含有限数量的雷达工作模式,在未知和复杂对抗场景中显得力不从心,而且生成的干扰波形没有伪装能力,易被雷达方识别,无法欺骗雷达方识别网络。

技术实现思路

[0005]本专利技术的目的在于针对现有干扰波形生成方法无法处理或适应未知和复杂对抗场景中的干扰波形决策以及易被雷达方识别等问题,提供一种基于深度强化学习的伪装干扰波形生成方法。
[0006]本专利技术的目的通过如下技术方案来实现:包括以下步骤:
[0007]步骤1:获取干扰设备的干扰样式编号集合K、干扰信号功率取值区间P、干扰信号带宽取值区间B;
[0008]步骤2:构造训练数据集;
[0009]步骤2.1:在雷达对目标进行探测时,干扰设备通过截获雷达信号,获取当前雷达状态s;
[0010]s={T1,T2,f}
[0011]其中,T1为雷达的发射信号脉宽,T2为雷达的发射信号周期,f为雷达的发射信号中心频率;
[0012]步骤2.2:干扰设备随机选择动作a={k,p,b},产生干扰信号g对雷达进行干扰;其中,k为干扰信号g所属的干扰样式的编号,k∈K;p为干扰信号g的功率,p∈P;b为干扰信号g
的带宽,b∈B;
[0013]步骤2.3:干扰设备获取雷达在受到干扰后的状态s

[0014]s

={T
′1,T
′2,f

};
[0015]步骤2.4:计算动作a的奖励值r,生成训练样本(s,a,r,s

);
[0016][0017]P
d
=x
t
‑1[10lg(VG
r
σR
t
‑4)][0018][0019]其中,为雷达接收机处的信噪比反函数;为雷达接收机处的信干比反函数;V是雷达的性能参数;G
r
为雷达天线接收增益;R
t
为雷达与目标的径向距离;σ为目标RCS;V
m
是干扰机的性能参数;G
m
为干扰机天线发射增益;R
m
为雷达与干扰机的径向距离;E
m
为时域、空域、频域与增益域影响因素之和;η为干扰信号对雷达接受机带宽的覆盖率,与干扰信号带宽b和干扰样式k有关;
[0020]步骤2.5:重复步骤2.1至步骤2.4,直至获取预设数量的训练样本;
[0021]步骤3:使用训练数据集训练EMDQN网络;训练完成的EMDQN可根据输入的雷达状态s输出对应奖励值r最大的动作a;
[0022]步骤4:获取雷达可识别的干扰类型,构建干扰类型编号集合C;训练雷达智能识别网络,标注训练数据集中各训练样本(s,a,r,s

)的动作a对应的干扰信号g对应的雷达可识别的干扰类型的编号m,得到标注后的训练样本(s,a,r,s

,m),m∈C;
[0023]步骤4.1:取训练数据集中的部分训练样本构建集合X1,其余样本组成集合X2;
[0024]步骤4.2:对于集合X1中的各训练样本(s,a,r,s

)进行人工标注,根据动作a={k,p,b}对应的干扰信号g所属的雷达可识别的干扰类型,标注干扰信号g对应的雷达可识别的干扰类型编号m;
[0025]步骤4.3:使用标注后的集合X1训练雷达智能识别网络;训练完成的雷达智能识别网络可根据输入的干扰信号g输出对应的干扰类型编号m;
[0026]所述的雷达智能识别网络以分类交叉熵作为损失函数,其表示为:
[0027]L1=

p(x)log(q(x))
[0028]其中,p(x)为真实概率分布,q(x)为预测概率分布;
[0029]步骤4.4:将集合X2输入训练好的雷达智能识别网络中进行标注;
[0030]步骤5:使用标注后的训练数据集训练伪装生成网络;
[0031]步骤5.1:对于标注后的训练样本(s,a,r,s

,m),取动作a={k,p,b}对应的干扰信号g的干扰样式编号k与随机噪声z拼接,作为伪装生成网络的输入y=[z,k];伪装生成网络输出伪装信号h;
[0032]步骤5.2:将伪装信号h与干扰信号g叠加为信号f=g+h,将信号f输入雷达智能识别网络中,雷达智能识别网络输出识别到的干扰类型编号n;
[0033]步骤5.3:若不满足训练截止条件,则计算伪装生成网络的损失函数L2,并采用梯度下降法更新网络参数后返回步骤5.1;若满足训练截止条件,则输出完成训练的伪装生成
网络;
[0034]L2=

||m

n||2[0035]步骤6:干扰设备通过截获雷达信号,获取当前雷达状态s;将雷达状态s输入训练完成的EMDQN中,得到动作a={k,p,b};根据动作a中k、p、b参数值得到干扰信号g;将干扰信号g的干扰样式编号k和随机噪声z进行拼接,作为伪装生成网络的输入,得到伪装信号h;将伪装信号h与干扰信号g叠加,得到伪装干扰波形。
[0036]本专利技术的有益效果在于:
[0037]本专利技术通过构建深度强化学习探索模型,设计状态空间、动作空间、奖励函数,实现了基于深度强化学习的干扰波形生成,该模型中模拟了较为复杂的动态对抗过程,只需当前雷达状态就可以输出对应的干扰波形,在复杂或未知对抗场景下依然能够做出较为有效的干扰波形决策;通过构建伪装生成网络输出伪装信号,并与深度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的伪装干扰波形生成方法,其特征在于,包括以下步骤:步骤1:获取干扰设备的干扰样式编号集合K、干扰信号功率取值区间P、干扰信号带宽取值区间B;步骤2:构造训练数据集;步骤2.1:在雷达对目标进行探测时,干扰设备通过截获雷达信号,获取当前雷达状态s;s={T1,T2,f}其中,T1为雷达的发射信号脉宽,T2为雷达的发射信号周期,f为雷达的发射信号中心频率;步骤2.2:干扰设备随机选择动作a={k,p,b},产生干扰信号g对雷达进行干扰;其中,k为干扰信号g所属的干扰样式的编号,k∈K;p为干扰信号g的功率,p∈P;b为干扰信号g的带宽,b∈B;步骤2.3:干扰设备获取雷达在受到干扰后的状态s

s

={T
′1,T
′2,f

};步骤2.4:计算动作a的奖励值r,生成训练样本(s,a,r,s

);P
d
=x
t
‑1[10lg(VG
r
σR
t
‑4)]其中,为雷达接收机处的信噪比反函数;为雷达接收机处的信干比反函数;V是雷达的性能参数;G
r
为雷达天线接收增益;R
t
为雷达与目标的径向距离;σ为目标RCS;V
m
是干扰机的性能参数;G
m
为干扰机天线发射增益;R
m
为雷达与干扰机的径向距离;E
m
为时域、空域、频域与增益域影响因素之和;η为干扰信号对雷达接受机带宽的覆盖率,与干扰信号带宽b和干扰样式k有关;步骤2.5:重复步骤2.1至步骤2.4,直至获取预设数量的训练样本;步骤3:使用训练数据集训练EMDQN网络;训练完成的EMDQN可根据输入的雷达状态s输出对应奖励值r最大的动作a;步骤4:获取雷达可识别的干扰类型,构建干扰类型编号集合C;训练雷达智能识别网络,标注训练数据集中各训练样本(s...

【专利技术属性】
技术研发人员:高敬鹏王国轩马静綦俊炜王廷飞高路江志烨郑沛
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1