基于强化学习的雷达抗干扰智能决策方法技术

技术编号:30767379 阅读:14 留言:0更新日期:2021-11-10 12:29
一种基于强化学习的雷达抗干扰智能决策方法,属于雷达抗干扰技术领域。本发明专利技术针对现有雷达抗干扰方法中LFM波形的设计方法单一,不能应对复杂干扰场景的问题。包括:对于雷达与干扰机的每一个对抗回合,在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中,在雷达接收端接收回波信号;对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号;设定雷达抗干扰的决策准则;判断目标回波信号是否满足决策准则,若是,则实现了雷达抗干扰;否则,以决策准则为依据,采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数,并通过雷达发射端产生新的LFM波形。本发明专利技术用于实现在线抗干扰决策。发明专利技术用于实现在线抗干扰决策。发明专利技术用于实现在线抗干扰决策。

【技术实现步骤摘要】
基于强化学习的雷达抗干扰智能决策方法


[0001]本专利技术涉及基于强化学习的雷达抗干扰智能决策方法,属于雷达抗干扰


技术介绍

[0002]面对日益复杂的电磁环境,雷达抗干扰能力越来越受到研究人员的关注。
[0003]基于数字射频存储器(DRFM)的干扰系统,通过对雷达发射信号进行复制或脉内调整等操作来实施干扰,因其相干性强,对雷达的威胁越来越大。尤其在面对干扰参数动态变化的场景时,发射固定参数的线性调频(LFM)信号已不能满足抗干扰的需求。
[0004]现有的基于调频斜率扰动的LFM波形设计抗干扰方法,往往随机设计调频斜率,或者调频斜率人为设计后固定不变,这种方法较为单一,当面对复杂干扰场景时抗干扰能力失效。

技术实现思路

[0005]针对现有雷达抗干扰方法中LFM波形的设计方法单一,不能应对复杂干扰场景的问题,本专利技术提供一种基于强化学习的雷达抗干扰智能决策方法。
[0006]本专利技术的一种基于强化学习的雷达抗干扰智能决策方法,包括,
[0007]对于雷达与干扰机的每一个对抗回合,在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中,在雷达接收端接收来自电磁干扰环境中的回波信号;所述回波信号包括目标回波信号和干扰回波信号;
[0008]对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号;
[0009]根据发射的LFM波形的波形性能和接收端干扰抑制后的抗干扰性能设定雷达抗干扰的决策准则;判断目标回波信号是否满足决策准则,若是,则实现了雷达抗干扰;否则,以决策准则为依据,采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数,并通过雷达发射端产生新的LFM波形;
[0010]所述雷达在线抗干扰智能决策算法包括:基于强化学习的思想,采用Q

learning算法设计离线建立知识库算法,然后采用离线建立知识库算法建立抗干扰知识库,并以抗干扰知识库作为先验知识,再采用Q

learning算法设计在线抗干扰决策算法,基于在线抗干扰决策算法计算获得下一对抗回合的LFM波形参数。
[0011]根据本专利技术的基于强化学习的雷达抗干扰智能决策方法,当前对抗回合LFM波形为N个基于调频斜率扰动的LFM波形的脉冲信号,在第n个脉冲重复周期内发射的LFM波形信号S
n
(t)为:
[0012][0013]式中N为正整数,T
n
为脉冲持续时间,a
n
(t)为第n个LFM波形信号的扰动项,
为受扰动的参考信号,μ为受扰动的参考信号的固有调频斜率,t为时间;
[0014]其中a
n
(t)=exp[jφ
n
(t)],
[0015]式中φ
n
(t)为调频斜率扰动形成的相位扰动:
[0016]φ
n
(t)=πβ
n
t2,
[0017]式中β
n
为调频斜率扰动系数;
[0018]T
n
=B/(β
n
+μ),
[0019]式中B为雷达信号带宽。
[0020]根据本专利技术的基于强化学习的雷达抗干扰智能决策方法,在第n个脉冲重复周期内接收的来自电磁干扰环境中的回波信号r
n
(t)为:
[0021]r
n
(t)=α
T
S
n
(t

τ
T
)+α
J
Γ[S
n

i
(t)]*δ(t

τ
J
),
[0022]式中α
T
为目标回波信号幅度,α
J
为干扰回波信号幅度,τ
J
为干扰回波信号相对于当前脉冲重复周期内雷达发射的LFM波形的时延,Γ为干扰机对第n个脉冲重复周期之前的第i个脉冲重复周期内的LFM波形信号所作的复制或脉内调整操作,i为干扰机针对LFM波形所作的复制或脉内调整操作的脉冲序号,δ为冲激函数。
[0023]根据本专利技术的基于强化学习的雷达抗干扰智能决策方法,对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号的过程包括:
[0024]假设雷达发射的N个基于调频斜率扰动的LFM波形的脉冲信号S
t
为:
[0025]S
t
=[S1(t)S2(t)

S
N
(t)]T

[0026]则雷达接收到的回波信号R
t
为:
[0027]R
t
=[r1(t)r2(t)

r
N
(t)]T

[0028]对于雷达发射的连续的N个脉冲信号,来自电磁干扰环境中的回波信号R
t
中干扰回波信号J为:
[0029]J=[J1(t)J2(t)

J
N
(t)]T
[0030]=[Γ[S1‑
i
(t)]Γ[S2‑
i
(t)]…
Γ[S
N

i
(t)]]T,
[0031]式中J
n
(t)为第n个脉冲重复周期内接收的干扰回波信号,n=1,2,

,N;
[0032]设置干扰信号限幅门限,将回波信号r
n
(t)对干扰回波信号J
n
(t)滤波,然后通过干扰逆匹配滤波恢复回波信号,再对目标匹配滤波得到目标回波信号。
[0033]根据本专利技术的基于强化学习的雷达抗干扰智能决策方法,获得目标回波信号的过程还包括:
[0034]以当前周期LFM波形信号作为参考信号S
n

1*
(

t)对回波信号r
n
(t)进行匹配滤波处理,得到限幅后信号X1(t):
[0035][0036]将限幅后信号X1(t)进行干扰逆匹配滤波,得到恢复后回波信号X2(t):
[0037][0038]式中τ1为回波时延,M为干扰幅度缩小的倍数,τ2为干扰机对雷达第n

1个脉冲重复周期的发射脉冲调制转发生成的时延,S
n

1*
(

t)为S
n
‑1(

t)的取共轭运算;
[0039]再由恢复后回波信号X2(t)对目标匹配滤波得到目标回波信号X3(t):
[0040][0041]根据本专利技术的基于强化学习的雷达抗干扰智能决策方法,采用低自相关峰值旁瓣电平、低互相关峰值旁瓣电平和高信干比设计决策准则;设计自相关峰值旁瓣电平阈值为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的雷达抗干扰智能决策方法,其特征在于包括,对于雷达与干扰机的每一个对抗回合,在雷达发射端发射基于调频斜率扰动的LFM波形至电磁干扰环境中,在雷达接收端接收来自电磁干扰环境中的回波信号;所述回波信号包括目标回波信号和干扰回波信号;对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号;根据发射的LFM波形的波形性能和接收端干扰抑制后的抗干扰性能设定雷达抗干扰的决策准则;判断目标回波信号是否满足决策准则,若是,则实现了雷达抗干扰;否则,以决策准则为依据,采用雷达在线抗干扰智能决策算法计算下一对抗回合的LFM波形参数,并通过雷达发射端产生新的LFM波形;所述雷达在线抗干扰智能决策算法包括:基于强化学习的思想,采用Q

learning算法设计离线建立知识库算法,然后采用离线建立知识库算法建立抗干扰知识库,并以抗干扰知识库作为先验知识,再采用Q

learning算法设计在线抗干扰决策算法,基于在线抗干扰决策算法计算获得下一对抗回合的LFM波形参数。2.根据权利要求1所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,当前对抗回合LFM波形为N个基于调频斜率扰动的LFM波形的脉冲信号,在第n个脉冲重复周期内发射的LFM波形信号S
n
(t)为:式中N为正整数,T
n
为脉冲持续时间,a
n
(t)为第n个LFM波形信号的扰动项,为受扰动的参考信号,μ为受扰动的参考信号的固有调频斜率,t为时间;其中a
n
(t)=exp[jφ
n
(t)],式中φ
n
(t)为调频斜率扰动形成的相位扰动:φ
n
(t)=πβ
n
t2,式中β
n
为调频斜率扰动系数;T
n
=B/(β
n
+μ),式中B为雷达信号带宽。3.根据权利要求2所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,在第n个脉冲重复周期内接收的来自电磁干扰环境中的回波信号r
n
(t)为:r
n
(t)=α
T
S
n
(t

τ
T
)+α
J
Γ[S
n

i
(t)]*δ(t

τ
J
),式中α
T
为目标回波信号幅度,α
J
为干扰回波信号幅度,τ
J
为干扰回波信号相对于当前脉冲重复周期内雷达发射的LFM波形的时延,Γ为干扰机对第n个脉冲重复周期之前的第i个脉冲重复周期内的LFM波形信号所作的复制或脉内调整操作,i为干扰机针对LFM波形所作的复制或脉内调整操作的脉冲序号,δ为冲激函数。4.根据权利要求3所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,对回波信号采用三步匹配滤波的干扰抑制方法,获得目标回波信号的过程包括:假设雷达发射的N个基于调频斜率扰动的LFM波形的脉冲信号S
t
为:S
t
=[S1(t)S2(t)

S
N
(t)]
T

则雷达接收到的回波信号R
t
为:R
t
=[r1(t)r2(t)

r
N
(t)]
T
,对于雷达发射的连续的N个脉冲信号,来自电磁干扰环境中的回波信号R
t
中干扰回波信号J为:式中J
n
(t)为第n个脉冲重复周期内接收的干扰回波信号,n=1,2,

,N;设置干扰信号限幅门限,将回波信号r
n
(t)对干扰回波信号J
n
(t)滤波,然后通过干扰逆匹配滤波恢复回波信号,再对目标匹配滤波得到目标回波信号。5.根据权利要求4所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,获得目标回波信号的过程还包括:以当前周期LFM波形信号作为参考信号S
n

1*
(

t)对回波信号r
n
(t)进行匹配滤波处理,得到限幅后信号X1(t):将限幅后信号X1(t)进行干扰逆匹配滤波,得到恢复后回波信号X2(t):式中τ1为回波时延,M为干扰幅度缩小的倍数,τ2为干扰机对雷达第n

1个脉冲重复周期的发射脉冲调制转发生成的时延,S
n

1*
(

t)为S
n
‑1(

t)的取共轭运算;再由恢复后回波信号X2(t)对目标匹配滤波得到目标回波信号X3(t):6.根据权利要求5所述的基于强化学习的雷达抗干扰智能决策方法,其特征在于,采用低自相关峰值旁瓣电平、低互相关峰值旁瓣电平和高信干比设计决策准则;设计自相关峰值旁瓣电平阈值为γ1,互相关峰值电平阈值为γ2,信干...

【专利技术属性】
技术研发人员:许荣庆魏晶晶于雷位寅生
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1