【技术实现步骤摘要】
一种雷达智能认知抗干扰策略的生成方法
[0001]本专利技术属于雷达
,具体涉及一种雷达智能认知抗干扰策略的生成方法。
技术介绍
[0002]随着现代电子战的发展,雷达面临着来自敌方干扰机的更大挑战。在这些不同的干扰技术中,主瓣干扰尤其难以处理,由于干扰机和目标距离足够近,且都在雷达的主波束内,传统的空间置零等干扰方法是无效的。
[0003]主瓣干扰的抗干扰方法可分为无源抑制方法和有源对抗方法两大类。比如基于改进的块矩阵(MBM)方法、基于特征投影处理和协方差矩阵重构的主瓣抗干扰方法,这些方法都是建立在干扰机与视线方向的角度分离不一致的假设基础上的,这在实际的电子战中可能是不成立的。因此,这些无源抑制方法的缺点限制了它们在实际电子战中的应用。与无源抑制方法相比,有源对抗要求雷达提前采取一些措施避干扰,这意味着不需要前面提到的假设,并且可以在一定程度上解决无源抑制方法的缺点。这些措施包括传输中的频率捷变、PRI捷变、脉冲分集等。特别地,由于频率捷变(FA)雷达能以随机的方式主动地将载波频率从一个脉冲变为另一个脉冲 ...
【技术保护点】
【技术特征摘要】
1.一种雷达智能认知抗干扰策略的生成方法,其特征在于,包括:步骤1:构建干扰机的多个干扰策略;步骤2:基于预先的模仿学习模型对多个干扰策略进行参数化,获得每个干扰策略的参数化表达;步骤3:对每个干扰策略的参数化表达进行参数摄动,获得参数摄动后的干扰策略;步骤4:构建基于WR2L的抗干扰策略生成网络,将其作为FA雷达的代理;步骤5:利用所述参数摄动后的干扰策略,对所述抗干扰策略生成网络训练,以使所述抗干扰策略生成网络按照奖励递增的方向在动作数据中选择动作执行,直至所述抗干扰策略生产网络的执行动作的奖励不再变化,得到训练好的抗干扰策略生成网络;其中,所述奖励根据一个雷达相干处理时间CPI中FA雷达代理的检测概率计算得到;步骤6:将干扰机的实时干扰策略输入所述训练好的抗干扰策略生成网络,生成抗干扰策略。2.根据权利要求1所述的生成方法,其特征在于,所述步骤2包括:步骤2.1,在所述多个干扰策略中选定一个干扰策略步骤2.2,构建映射函数f
φ
(
·
),初始化一个雷达相干处理时间CPI内的脉冲数T,专家轨迹数量N
E
,和D
ω
的初始抗干扰策略和蒙特卡洛估计法中判别器的参数ω0,初始化雷达的干扰策略π
pre
,定义空表τ
E
;其中,τ
E
存储样本轨迹τ,τ=s0,a0,r1,s1,a1,r2,...s
n
,a
n
,r
n
;步骤2.3,令循环数n=1;步骤2.4,根据给定的分布p0(s0)得到样本s0;步骤2.5,令时间步t=0;步骤2.6,通过映射函数f
φ
(
·
)得到干扰机状态s
′
t
;步骤2.7,雷达根据策略π
pre
(a
t
|s
t
)采取行动a
t
;步骤2.8,干扰机根据预先设定的干扰策略采取行动a
′
t
,并转换状态到s
t+1
;步骤2.9,在τ
E
中存储s
′
t
和a
′
t
;步骤2.10,令t=t+1,返回步骤2.5,直至t=N
‑
1;步骤2.11,令n=n+1,直至n=N
E
;步骤2.12,令循环数i=0;步骤2.13,当终止条件不满足时执行步骤2.14,否则执行步骤2.18;其中,所述终止条件为:生成器的累积奖励收敛;步骤2.14,从策略中得到样本轨迹τ
′
i
;步骤2.15,根据蒙特卡洛估计法估计判别器的梯度,并更新其参数ω
i
到ω
i+1
;步骤2.16,利用强化学习算法TRPO根据奖励函数更新生成器参数到其中,s
′
表示状态,a
′
表示执行动作,为判别分类器,它将输入{s
′
,a
′
}映射到一个0到1之间的实数;
步骤2.17,令i=i+1;步骤2.18,获得干扰策略参数φ。3.根据权利要求1所述的生成方法,其特征在于,所述步骤3包括:步骤3.1,从均值为方差为的高斯分布独立抽取样本Δφ;步骤3.2,将干扰策略参数φ0与抽样数据Δφ进行累加,得到随机干扰策略φ;其中,φ=φ0+Δφ;步骤3.3,计算原干扰策略参数φ0与经过摄动的干扰策略参数φ之间的Wasserstein距离;步骤3.4,将预设范围内的随机干扰策略参数作为摄动后的干扰策略的参数;获得参数摄动后的干扰策略。4.根据权利要求1所述的生成方法,其特征在于,在所述步骤4之前,所述生成方法还包括:步骤4.1,初始化雷达抗干扰策略θ和干扰机干扰策略参数φ,初始化最大迭代次数N;步骤4.2,初始化循环数i=0;步骤4.3,在第j次循环,干扰策略参数为φ
j
,利用TRPO算法求解下式(1),得到最优干扰策略θ
[j+1]
;步骤4.4,求解公式(2),确定最优干扰策略θ
[j+1]
的最坏干扰参数φ
j+1
;公式(1)为:公式(2)为:步骤4.5,令循环数i=i+1,重复步骤4.4至步骤4.5,直到i=N,获得包含最坏干扰参数的最优干扰策略θ
[j+1]
;其中,代表轨迹τ的累积回报,代表轨迹τ在最优干扰策略θ
[j+1]
下服从分布下服从分布是P
φ
(
·
|s,a)和的二阶Wasserstein距离,ε>0是ε
‑
Wasserstein ball的半径。5.根据权利要求4所述的生成方法,其特征在于,所述步骤4.4包括:步骤4.4a,对目标函数和约束条件进行泰勒展开以简化计算,得到简化形式的极小化问题;其中,简化形式的极小化问题为:H0为原约束问题在Δφ=0处的Hessian矩阵,步骤4.4b,利用拉格朗日乘子法对化简后的约束问题进行求解;所述解为:g
[j+1]
为φ在φ0处的期望累计报酬梯度;其中...
【专利技术属性】
技术研发人员:纠博,李思博,李康,刘宏伟,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。