一种基于深度强化学习的雷达智能干扰抑制决策方法技术

技术编号：37843338 阅读：40 留言：0更新日期：2023-06-14 09:48

本发明专利技术提供一种基于深度强化学习的雷达智能干扰抑制决策方法，通过将深度学习网络与强化学习算法相结合，使得智能体雷达能够在一定底噪环境中与干扰机所释放的干扰信号不断进行博弈操作从而学习并优化干扰抑制策略；通过对抑制前后的回波信号进行脉压操作以验证抑制后恢复效果。此发明专利技术避免了人工判决在速度和准确性方面的不足，优化了传统强化学习算法需要Q

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的雷达智能干扰抑制决策方法

[0001]本专利技术设计一种基于深度强化学习的雷达智能干扰抑制决策方法，属于电子干扰

技术介绍

[0002]在现代雷达电子博弈技术中，干扰机系统的智能化决策水平愈发提高，其可根据双方的环境参数针对性地选择最为合适的信号类型对我方雷达施加干扰。以有源性雷达干扰信号为例，压制性干扰主要对目标回波实施阻塞或瞄准式的遮盖操作，使我方雷达无法检测到目标回波尖峰；欺骗性干扰则主要在真实目标回波尖峰附近生成多个差别不大的欺骗性假目标尖峰，从而使我方雷达的虚警概率大幅提高。但干扰机的智能化发展同样推动着雷达干扰抑制智能化决策的发展。
[0003]传统的雷达干扰抑制算法较为丰富，而在后端信号处理方面较为典型的有：基于时域或频域的对消算法(TDC、FDC)，该类算法的实施条件是干扰信号对时、频域中某一域的变动程度较小时，可在该信息域中找到原始信号的部分信息，并在该域中实施对消操作从而尽可能去除干扰信号造成的影响；基于干扰重构的抑制算法(IR)是针对欺骗性干扰信号极为有效的一种抑...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的雷达智能干扰抑制决策方法，其特征在于，包括构建雷达干扰抑制交互环境和构建雷达干扰抑制决策机制；生成环境状态参数集合作为环境与决策机构间交互的联系，然后将环境状态参数递交DQN决策机构进行状态动作评估、经验录入、网络更新迭代操作；并最终给出决策结果。2.根据权利要求1所述的一种基于深度强化学习的雷达智能干扰抑制决策方法，其特征在于，构建雷达干扰抑制交互环境包括：(1)根据预设的干扰参数生成多种压制和欺骗性的有源干扰信号组成博弈环境中的干扰样式库：其中：rect(t/T)是脉宽为T的矩形脉冲，f0为调制初频，为回波信号的初相，K为LFM信号的调制斜率，且信号带宽B＝KTΔt为目标回波信号的双程传播延时，其计算公式为：其中，R为雷达与探测目标间的相对距离，c＝3
×
108m/s；(2)向环境中添加底噪，通过预设的信噪比和干噪比参数以雷达回波信号为基底自适应调整干扰信号的功率谱幅度；(3)干扰抑制决策所针对的信号应为各类信号时域状态下的叠加，得到受干扰雷达回波信号为：u(t)＝s(t)+j
i
(t)+n(t),i∈[1,6]其中，u(t)为待处理信号，s(t)为回波信号，j(t)为干扰信号，n(t)为环境噪声；(4)以所得到的受干扰后雷达回波信号为环境集合，提取多个方面的状态参数构成初始状态空间，量干扰抑制效果的指标SINR为：其中，P
S
、P
I
和P
N
分别为回波信号、干扰信号和噪声信号的有效功率；干扰抑制比ISR为：其中，JSR1和JSR0分别表示干扰抑制前和干扰抑制后的干信比；波形稳定度通过分析时域信号包络来衡量信号时域包络的恢复程度，首先利用希尔伯特变换得到解析信号：其中，u(t)为待提取包络信号，为Hilbert变换后信号，为解析信号，A(t)为包络信息；对得到的解析信号取模，提取得到包络信息，过程如下：
式中e
jωt
为复载波信号，其模为1，从而将复数包络转换为实数包络，即完成对信号包络的提取；根据所提取的包络信息，通过各数值点与包络均值的偏差程度来对包络稳定性进行评估，数值越大说明稳定性越差、干扰抑制效果越差，评估过程为：其中，|A[n]|是包络|A(t)|的离散化表现，M为离散化后的数值点总数。3.根据权利要求1所述的一种基于深度强化学习的雷达智能干扰抑制决策方法，其特征在于，构建雷达干扰抑制决策机制包括：(2.1)深度强化学习网络架构中的Q估计和Q目标网络均采用全连接网络结构，DNN包含输入层、隐藏层、输出层三层；在将得到的初始状态集合s
t
递交DQN决策机构进行信息处理前，对机构内部的经验回放池、Q估计和Q目标网络及所有相关预设参数进行初始化处理；其中Q估计...

【专利技术属性】
技术研发人员：肖易寒，曹宗恒，王灿，陈涛，郭立民，蒋伊琳，
申请(专利权)人：上海无线电设备研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人