一种基于深度强化学习的雷达智能干扰抑制决策方法技术

技术编号:37843338 阅读:14 留言:0更新日期:2023-06-14 09:48
本发明专利技术提供一种基于深度强化学习的雷达智能干扰抑制决策方法,通过将深度学习网络与强化学习算法相结合,使得智能体雷达能够在一定底噪环境中与干扰机所释放的干扰信号不断进行博弈操作从而学习并优化干扰抑制策略;通过对抑制前后的回波信号进行脉压操作以验证抑制后恢复效果。此发明专利技术避免了人工判决在速度和准确性方面的不足,优化了传统强化学习算法需要Q

【技术实现步骤摘要】
一种基于深度强化学习的雷达智能干扰抑制决策方法


[0001]本专利技术设计一种基于深度强化学习的雷达智能干扰抑制决策方法,属于电子干扰


技术介绍

[0002]在现代雷达电子博弈技术中,干扰机系统的智能化决策水平愈发提高,其可根据双方的环境参数针对性地选择最为合适的信号类型对我方雷达施加干扰。以有源性雷达干扰信号为例,压制性干扰主要对目标回波实施阻塞或瞄准式的遮盖操作,使我方雷达无法检测到目标回波尖峰;欺骗性干扰则主要在真实目标回波尖峰附近生成多个差别不大的欺骗性假目标尖峰,从而使我方雷达的虚警概率大幅提高。但干扰机的智能化发展同样推动着雷达干扰抑制智能化决策的发展。
[0003]传统的雷达干扰抑制算法较为丰富,而在后端信号处理方面较为典型的有:基于时域或频域的对消算法(TDC、FDC),该类算法的实施条件是干扰信号对时、频域中某一域的变动程度较小时,可在该信息域中找到原始信号的部分信息,并在该域中实施对消操作从而尽可能去除干扰信号造成的影响;基于干扰重构的抑制算法(IR)是针对欺骗性干扰信号极为有效的一种抑制算法思想,根据欺骗性干扰信号的生成规律反向推演其生成过程中的关键参数,并根据得到的参数生成对应的干扰信号实施对消操作从而获得几乎不含干扰信号的目标回波信号,该类算法对于针对性的干扰信号有着比其它干扰抑制算法更好的抑制效果。
[0004]复杂多变的真实环境决定了人为决定合适的干扰抑制算法需要较长的判断时间。而人工智能技术在雷达干扰抑制决策方向的引入,则可以通过设置恰当的环境特征奖赏函数和合理的逻辑结构,提高决策过程的快速性和准确性。

技术实现思路

[0005]针对现有人工决策速度较慢和干扰抑制策略需要预先准备等问题,本专利技术设计了一种基于深度强化学习的雷达智能干扰抑制决策方法,通过将深度学习网络与强化学习算法相结合,使得智能体雷达能够在一定底噪环境中与干扰机所释放的干扰信号不断进行博弈操作从而学习并优化干扰抑制策略;通过对抑制前后的回波信号进行脉压操作以验证抑制后恢复效果。此专利技术避免了人工判决在速度和准确性方面的不足,优化了传统强化学习算法需要Q

Table进行成果存储调用的策略效果,提高了决策系统在干扰判决特征和干扰抑制动作方面的可拓展性。
[0006]本专利技术的目的是这样实现的:步骤一,构建雷达干扰抑制交互环境。
[0007](1)线性调频雷达信号(LFM)是当前雷达广泛使用的一类雷达探测信号。因此根据其波形公式和参数范围生成随机LFM回波信号,并根据预设的干扰参数生成多种压制和欺骗性的有源干扰信号组成博弈环境中的干扰样式库。
[0008][0009]其中,rect(t/T)是脉宽为T的矩形脉冲,f0为调制初频,为回波信号的初相,K为LFM信号的调制斜率,且信号带宽B=KT。此外,Δt为目标回波信号的双程传播延时,其计算公式为:
[0010][0011]其中,R为雷达与探测目标间的相对距离,c=3
×
108m/s。
[0012](2)向环境中添加一定量的底噪,并通过预设的信噪比和干噪比参数以雷达回波信号为基底自适应调整干扰信号的功率谱幅度。
[0013](3)干扰抑制决策所针对的信号应为各类信号时域状态下的叠加,基于该思路设计得到如下所示的受干扰雷达回波信号:
[0014]u(t)=s(t)+j
i
(t)+n(t),i∈[1,6][0015]其中,u(t)为待处理信号,s(t)为回波信号,j(t)为干扰信号,其类型共计6种,n(t)为环境噪声。
[0016](4)以所得到的受干扰后雷达回波信号为环境集合,提取多个方面的状态参数构成初始状态空间,其中:
[0017]环境信干噪比(SINR)在原理上综合了信噪比和干噪比的概念,通过引入干扰能量从而对信号通信质量进行更为全面的评估,因而SINR是衡量干扰抑制效果的重要指标之一,其可表示为:
[0018][0019]其中,P
S
、P
I
和P
N
分别为回波信号、干扰信号和噪声信号的有效功率。干扰抑制比(Interference Suppression Ratio,ISR)从干信比变化的角度反映了干扰信号能量被抑制的程度,ISR越大,说明干扰抑制算法的抑制效果越好,因此ISR可以充分反映干扰抑制算法的有效性,其可表示为:
[0020][0021]其中,JSR1和JSR0分别表示干扰抑制前和干扰抑制后的干信比。
[0022]波形稳定度通过分析时域信号包络来衡量信号时域包络的恢复程度,首先利用希尔伯特(Hilbert)变换得到解析信号:
[0023][0024]其中,u(t)为待提取包络信号,为Hilbert变换后信号,为解析信号,A(t)为包络信息。
[0025]对得到的解析信号取模,即可提取得到包络信息,过程如下:
[0026][0027]式中e
jωt
为复载波信号,其模为1,从而将复数包络转换为实数包络,即完成对信号包络的提取。
[0028]根据f所提取的包络信息,通过各数值点与包络均值的偏差程度来对包络稳定性进行评估,数值越大说明稳定性越差、干扰抑制效果越差,评估过程可表示为:
[0029][0030]其中,|A[n]|是包络|A(t)|的离散化表现,M为离散化后的数值点总数。
[0031]在脉压效果方面使用真假目标判决和主副瓣比作为状态参数,首先对干扰抑制后的时域波形按照一定规则进行矩形窗滑动搜索,从而找到抑制后的可能目标数量;然后根据搜索到的目标群与真实目标位置的距离差异进行真假目标判决;其判决结果设为N,只有当真目标唯一,无假目标时的判决结果为1,反之为0。
[0032]而峰值旁瓣比(Peak Side Lobe Ratio,PSLR)则是根据主瓣与最强旁瓣间的峰值强度比值来评判脉压效果的指标之一,PSLR越大,则说明脉压效果越好,反之则越差。其可通过距离分辨率公式找到第一副瓣峰值位置并计算得到。整合以上五种状态参数,即可得到初始状态空间s
t
的内容为:
[0033]s
t
=[SINR,ISR,S
u(t)
,N,PSLR][0034]动作集合设计方面,将动作集合记为a,其内部包括时域对消算法、频域对消算法、分数阶傅里叶滤波算法、基于干扰重构的频谱弥散干扰抑制算法、基于干扰重构的切片重构干扰抑制算法和基于干扰重构的间歇采样转发干扰抑制算法共计六种干扰抑制算法。当选择动作时,则挑选对应的干扰抑制算法进行环境交互并产生新的环境状态。
[0035]动作集合a和初始状态集合s
t
的确立,为干扰抑制策略训练提供了前提条件。
[0036]步骤二,构建雷达干扰抑制决策机制。
[0037](1)深度强化学习网络(Deep Q Networks,DQN)架构中的Q估计和Q目标网络均采用全连接网络(Deep本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的雷达智能干扰抑制决策方法,其特征在于,包括构建雷达干扰抑制交互环境和构建雷达干扰抑制决策机制;生成环境状态参数集合作为环境与决策机构间交互的联系,然后将环境状态参数递交DQN决策机构进行状态动作评估、经验录入、网络更新迭代操作;并最终给出决策结果。2.根据权利要求1所述的一种基于深度强化学习的雷达智能干扰抑制决策方法,其特征在于,构建雷达干扰抑制交互环境包括:(1)根据预设的干扰参数生成多种压制和欺骗性的有源干扰信号组成博弈环境中的干扰样式库:其中:rect(t/T)是脉宽为T的矩形脉冲,f0为调制初频,为回波信号的初相,K为LFM信号的调制斜率,且信号带宽B=KTΔt为目标回波信号的双程传播延时,其计算公式为:其中,R为雷达与探测目标间的相对距离,c=3
×
108m/s;(2)向环境中添加底噪,通过预设的信噪比和干噪比参数以雷达回波信号为基底自适应调整干扰信号的功率谱幅度;(3)干扰抑制决策所针对的信号应为各类信号时域状态下的叠加,得到受干扰雷达回波信号为:u(t)=s(t)+j
i
(t)+n(t),i∈[1,6]其中,u(t)为待处理信号,s(t)为回波信号,j(t)为干扰信号,n(t)为环境噪声;(4)以所得到的受干扰后雷达回波信号为环境集合,提取多个方面的状态参数构成初始状态空间,量干扰抑制效果的指标SINR为:其中,P
S
、P
I
和P
N
分别为回波信号、干扰信号和噪声信号的有效功率;干扰抑制比ISR为:其中,JSR1和JSR0分别表示干扰抑制前和干扰抑制后的干信比;波形稳定度通过分析时域信号包络来衡量信号时域包络的恢复程度,首先利用希尔伯特变换得到解析信号:其中,u(t)为待提取包络信号,为Hilbert变换后信号,为解析信号,A(t)为包络信息;对得到的解析信号取模,提取得到包络信息,过程如下:
式中e
jωt
为复载波信号,其模为1,从而将复数包络转换为实数包络,即完成对信号包络的提取;根据所提取的包络信息,通过各数值点与包络均值的偏差程度来对包络稳定性进行评估,数值越大说明稳定性越差、干扰抑制效果越差,评估过程为:其中,|A[n]|是包络|A(t)|的离散化表现,M为离散化后的数值点总数。3.根据权利要求1所述的一种基于深度强化学习的雷达智能干扰抑制决策方法,其特征在于,构建雷达干扰抑制决策机制包括:(2.1)深度强化学习网络架构中的Q估计和Q目标网络均采用全连接网络结构,DNN包含输入层、隐藏层、输出层三层;在将得到的初始状态集合s
t
递交DQN决策机构进行信息处理前,对机构内部的经验回放池、Q估计和Q目标网络及所有相关预设参数进行初始化处理;其中Q估计...

【专利技术属性】
技术研发人员:肖易寒曹宗恒王灿陈涛郭立民蒋伊琳
申请(专利权)人:上海无线电设备研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1