当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于MAB模型的FAR抗有源压制干扰策略生成方法技术

技术编号:36296836 阅读:56 留言:0更新日期:2023-01-13 10:11
本发明专利技术公开了一种基于MAB模型的FAR抗有源压制干扰策略生成方法,包括:步骤S1,构建有源干扰环境下FAR的接收回波信号模型;步骤S2,在动态变化作战电磁环境中,构建不依赖环境状态的POMDP模型;步骤S3,基于有源干扰识别器计算POMDP模型中的干扰机的状态;步骤S4,基于MAB模型计算POMDP模型中的抗干扰动作决策。本发明专利技术提出的方法,FAR根据各个频率发射通道对干扰环境探测及反馈结果,学习最优主动抗干扰策略,执行干扰主动规避动作,以提高FAR与压制干扰博弈对抗能力,达到持续发挥对目标距离及速度探测能力。速度探测能力。速度探测能力。

【技术实现步骤摘要】
一种基于MAB模型的FAR抗有源压制干扰策略生成方法


[0001]本专利技术属于雷达抗干扰
,尤其涉及一种基于MAB(多臂赌博机,Multi

armed Bandit,简称MAB)模型的FAR(频率捷变雷达,Frequency Agility Radar,简称FAR)抗有源压制干扰策略生成方法。

技术介绍

[0002]FAR在相参处理间隔(Coherent Processing Interval,简称CPI)内对发射信号载频不断变化,具有干扰主动对抗能力强优点。如果敌方干扰机未能有效追踪FAR的频点,瞄准式窄带干扰几乎丧失对FAR的干扰能力,扫频和宽阻带干扰的功率也无法集中到FAR的频点上,导致干扰效果大大降低,FAR具有躲避敌方主动干扰的能力,大大增强了FAR在现代认知电子战中的生存能力。
[0003]影响FAR干扰对抗性能的关键因素是载频捷变策略,在当前的载频捷变策略中,大多为载频随机捷变,要么是基于强化学习的离线频带选择,随机捷变策略没有利用环境知识和学习干扰方的干扰策略信息导致抗干扰能力弱,强化学习基于智能体(如雷达)与环境(如战场电磁空间)不断交互迭代,根据当前策略,在智能体所在状态采取相应的行为,最大化总获得奖励,然后通过获得奖励调整策略,最终获得智能体在环境中的最优策略。虽然近年来强化学习理论已经取得了长足的进步,但是仍然面临如下问题亟待解决。1、强化学习智能干扰对抗训练和测试环境条件苛刻,智能体与环境的交互需要符合马尔可夫决策过程(Markov decision process,MDP)真实作战环境下对手动作观测及状态转移满足马尔可夫性较为难以满足;2、强化学习智能干扰对抗通常在离线环境下定义动作及状态空间并设计奖赏函数对策略进行学习收敛,对复杂作战环境下未知干扰类型及动作较为难以相应;3、强化学习智能干扰对抗的鲁棒性欠佳,如果雷达和干扰机间的环境存在不确定性,由于离线训练环境与作战环境之间不匹配,在实际作战环境中使用训练环境中得到的最优抗干扰策略,抗干扰性能可能会下降。

技术实现思路

[0004]为解决
技术介绍
中存在的技术问题,本专利技术提出一种基于MAB模型的FAR抗有源压制干扰策略生成方法,具体为FAR根据各个频率发射通道对干扰环境探测及反馈结果,学习最优主动抗干扰策略,执行干扰主动规避动作,以提高FAR与压制干扰博弈对抗能力,达到持续发挥对目标距离及速度探测能力。
[0005]本专利技术提出的一种基于MAB模型的FAR抗有源压制干扰策略生成方法,包括:
[0006]步骤S1,构建有源干扰环境下FAR的接收回波信号模型;
[0007]步骤S2,在动态变化作战电磁环境中,构建不依赖环境状态的POMDP模型;
[0008]步骤S3,基于有源干扰识别器计算POMDP模型中的干扰机的状态;
[0009]步骤S4,基于MAB模型计算POMDP模型中的抗干扰动作决策。
[0010]优选地,步骤S1中,构建有源干扰环境下FAR的接收回波信号模型的具体过程为:
[0011]步骤S11,FAR在一个CPI内发射X个子脉冲,每一个子脉冲都是线性调频连续波信号,第x个子脉冲的时域的表达式为:
[0012][0013]其中,A表示发射信号幅值;rect(
·
)表示窗函数:T
p
表示子脉冲宽度;T
r
表示子脉冲重复间隔;f
x
表示子脉冲发射频率,f
x
=f
c
+Δf
x
,x=1,2,...,X,其中,f
c
为雷达载频,Δf
x
∈[0,B]是子脉冲的跳频步长;t表示时间,j表示虚数单位;
[0014]步骤S12,假设场景中存在K个待探测目标,发射第x个子脉冲的目标回波信号为:
[0015][0016]其中,β
k
表示第k个目标的散射强度;R
k
表示第k个目标的距离;v
k
表示第k个目标的速度;c表示真空中的光速;
[0017]步骤S13,在动态变化作战电磁环境中,将FAR的频段[f
c
,f
c
+B]划分成M个子频带:
[0018]f={f1,f2,...f
M
},
ꢀꢀ
(3)
[0019]其中,f
b
∈[f
c
+(b

1)Δf,f
c
+bΔf],b∈{1,2,...M},Δf=B/M,f
b
表示M个子频带均匀不重叠且连续;FAR第x个子脉冲选择第m个子频带发射信号,接收回波信号模型分为以下四种情况:
[0020][0021]其中,w
xm
表示环境中的噪声,假设w
xm
~N(0,σ2),是均值为0,方差为σ2的高斯噪声,r
xm
是对应的目标回波信号,J
xm
是有源干扰信号。
[0022]优选地,步骤S2中,在动态变化作战电磁环境中,构建不依赖环境状态的POMDP模型的具体过程为:
[0023]由包含五元组的<S,A,R,O,γ>构建POMDP模型;
[0024]其中,S是FAR状态空间,FAR在时刻y的状态s
y
∈S,s
y
为y时刻FAR探测到干扰机的发射概率最大的频带对应的状态即即表示y

1时刻干扰机的状态;
[0025]A是FAR动作空间,在时刻y的动作a
y
∈A={f1,f2,...,f
M
}表示FAR发射信号选择的子频带,动作表示干扰机发射信号选择的子频带;
[0026]R表示奖励值函数,R(s
y
,a
y
,s
y+1
)是通过智能体在状态s
y
采取动作a
y
获得的奖励,奖励值函数形式为:其中|
·
|为绝对值函数;
[0027]O表示观测空间,观测o
y
∈O表示FAR传感器y时刻观测到的环境状态,即接收回波
信号echo
ym

[0028]γ∈[0,1]用于调整悔恨值权重的折扣参数;
[0029]其中,Y表示交互结束时刻,交互过程中的时刻记作y∈{1,2,...,Y}。
[0030]优选地,步骤S3中,基于有源干扰识别器计算POMDP模型中的干扰机的状态的具体过程为:
[0031]步骤S31,构建有源干扰识别器;
[0032]步骤S32,获取有源干扰识别器的数据集;
[0033]步骤S33,设置有源干扰识别器网络的训练参数;
[0034]步骤S34,输出干扰信号所在每个频道的后验概率,并根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MAB模型的FAR抗有源压制干扰策略生成方法,其特征在于,包括:步骤S1,构建有源干扰环境下FAR的接收回波信号模型;步骤S2,在动态变化作战电磁环境中,构建不依赖环境状态的POMDP模型;步骤S3,基于有源干扰识别器计算POMDP模型中的干扰机的状态;步骤S4,基于MAB模型计算POMDP模型中的抗干扰动作决策。2.根据权利要求1所述的基于MAB模型的FAR抗有源压制干扰策略生成方法,其特征在于,步骤S1中,构建有源干扰环境下FAR的接收回波信号模型的具体过程为:步骤S11,FAR在一个CPI内发射X个子脉冲,每一个子脉冲都是线性调频连续波信号,第x个子脉冲的时域的表达式为:其中,A表示发射信号幅值;rect(
·
)表示窗函数:T
p
表示子脉冲宽度;T
r
表示子脉冲重复间隔;f
x
表示子脉冲发射频率,f
x
=f
c
+Δf
x
,x=1,2,...,X,其中,f
c
为雷达载频,Δf
x
∈[0,B]是子脉冲的跳频步长;t表示时间,j表示虚数单位;步骤S12,假设场景中存在K个待探测目标,发射第x个子脉冲的目标回波信号为:其中,β
k
表示第k个目标的散射强度;R
k
表示第k个目标的距离;v
k
表示第k个目标的速度;c表示真空中的光速;步骤S13,在动态变化作战电磁环境中,将FAR的频段[f
c
,f
c
+B]划分成M个子频带:f={f1,f2,...f
M
},
ꢀꢀꢀꢀ
(3)其中,f
b
∈[f
c
+(b

1)Δf,f
c
+bΔf],b∈{1,2,...M},Δf=B/M,f
b
表示M个子频带均匀不重叠且连续;FAR第x个子脉冲选择第m个子频带发射信号,接收回波信号模型分为以下四种情况:其中,w
xm
表示环境中的噪声,假设w
xm
~N(0,σ2),是均值为0,方差为σ2的高斯噪声,r
xm
是对应的目标回波信号,J
xm
是有源干扰信号。3.根据权利要求1所述的基于MAB模型的FAR抗有源压制干扰策略生成方法,其特征在于,步骤S2中,在动态变化作战电磁环境中,构建不依赖环境状态的POMDP模型的具体过程为:由包含五元组的<S,A,R,O,γ>构建POMDP模型;其中,S是FAR状态空间,FAR在时刻y的状态s
y
∈S,s
y
为y时刻FAR探测到干扰机的发射概
率最大的频带对应的状态即即表示y

1时刻干扰机的状态;A是FAR动作空间,在时刻y的动作a
y
∈A={f1,f2,...,f
M
}表示FAR发射信号选择的子频带,动作表示干扰机发射信号选择的子频带;R表示奖励值函数,R(s
y
,a
y
,s
y+1
)是通过智能体在状态s
y
采取动作a
y
获得的奖励,奖励值函数形式为:其中|
·
|为绝对值函数;O表示观测空间,观测o
y
∈O表示FAR传感器y时刻观测到的环境状态,即接收回波信号echo
ym
;γ∈[0,1]用于调整悔恨值权重的折扣参数;其中,Y表示交互结束时刻,交互过程中的时刻记作y∈{1,2,...,Y}。4.根据权利要求1所述的基于MAB模型的FAR抗有源压制干扰策略生成方法,其特征在于,步骤S3中,基于有源干扰识别器计算POMDP模型中的干扰机的状态的具体过程为:步骤S31,构建有源干扰识别器;步骤S32,获取有源干扰识别器网络的数据集;步骤S33,...

【专利技术属性】
技术研发人员:吴振华钱军赵发发杨利霞
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1