【技术实现步骤摘要】
结合行为克隆和近端策略优化算法的干扰决策方法及系统
[0001]本专利技术属于雷达电子对抗领域,具体涉及一种结合行为克隆和近端策略优化算法的干扰决策方法及系统,本专利技术技术方案可应用于电子对抗系统中。
技术介绍
[0002]现代科学技术的高速发展推动着军事对抗的重心从实体战向信息战的转移,电子战是信息战中最重要的部分。电子战的核心是以雷达为中心,争夺电磁频谱使用和控制权。在现代科技的加持下,现代雷达的功能越来越丰富,抗干扰能力越来越强,对敌方雷达进行干扰的难度越来越大。如何选择最合适的干扰样式,对敌方雷达产生最有效的干扰,成为电子对抗领域研究的一个重点。
[0003]现有的雷达干扰决策方法研究集中在强化学习算法的应用,强化学习算法可以通过交互的形式根据实际环境动态地调整策略,在策略调整初期,强化学习算法通过随机策略探索环境,但在雷达干扰决策领域,随机策略会决策出无效的干扰样式,无效的干扰行为不但不能对敌方雷达造成干扰,反而会提前暴露我方干扰机的位置,这使其无法直接应用于雷达干扰决策。因此,如何提高雷达干扰决策算法的安全性具有极高运用价值。
技术实现思路
[0004]针对在复杂电磁环境中对敌方多功能雷达如何进行安全且有效干扰的问题,本专利技术提出了一种结合行为克隆和近端策略优化算法的干扰决策方法及系统。
[0005]为实现上述专利技术目的,本专利技术采用如下技术方案:
[0006]结合行为克隆和近端策略优化算法的干扰决策方法,其按如下步骤进行:
[0007]S1、随机初 ...
【技术保护点】
【技术特征摘要】
1.结合行为克隆和近端策略优化算法的干扰决策方法,其特征在于,包括以下步骤:S1、随机初始化策略网络π
θ
的网络参数θ和价值网络V
φ
的网络参数φ;S2、基于行为克隆方法,训练策略网络π
θ
;S3、干扰机根据当前策略与雷达进行交互,采样轨迹数据τ,并存入数据集D
k
;S4、干扰机使用近端策略优化算法利用数据集D
k
中的轨迹数据进行策略网络优化;S5、重复执行步骤S3和步骤S4,得到最优策略2.根据权利要求1所述的结合行为克隆和近端策略优化算法的干扰决策方法,其特征在于,步骤S2中,基于行为克隆方法,训练策略网络,具体包括以下步骤:S21、根据已有的先验知识生成先验数据集D
p
={(s
i
,j
i
)|i=1,
…
,N},(s
i
,j
i
)表示第i个的雷达状态
‑
干扰样式对;S22、采用数据集D
p
根据目标函数训练策略网络,目标函数为:其中,N是专家知识库的大小,i表示s
i
和j
i
是在同一个时间步的,||x||2表示x的2
‑
范数。3.根据权利要求2所述的结合行为克隆和近端策略优化算法的干扰决策方法,其特征在于,步骤S3中,干扰机与雷达进行交互,具体包括以下步骤:S31、初始化:干扰机按照既定路线飞过雷达信号覆盖区域;S32、雷达不断发出脉冲信号扫描临近空域,并按照雷达工作逻辑对发现的目标进行跟踪和制导打击;S33、干扰机在t时刻后的一段处理时间内接收雷达脉冲信号并提取各个脉冲的脉冲描述字PDW;脉冲描述字PDW包含六个雷达脉冲参数如下:脉冲到达时间TOA、脉冲到达方位角DOA、脉宽PW、带宽BW、载频CF和脉内调制特征F;第i个脉冲的PDW表示为PDW
i
={TOA
i
,DOA
i
,PW
i
,BW
i
,CF
i
,F
i
}S34、干扰机通过一组脉冲描述字识别出雷达工作模式,并对雷达状态进行编码s
t
其中,为向量拼接符号,s
t
表示t时刻的雷达状态;f
n
,n∈[1,N]表示雷达状态s
t
所对应的雷达功能;p
m
,m∈[1,M]表示雷达功能f
n
所包含的雷达短语;{w
i
,w
j
,w
k
,w
l
},i,j,k,l∈[1,T]表示雷达短语p
m
所对应的雷达字;S35、干扰机根据雷达状态编码s
t
和策略得到干扰样式并向雷达发送相应的干扰信号;S36、雷达受到干扰后根据雷达接收机处理结果转变工作状态,干扰机通过再次实施步骤S34得到雷达新状态的编码s
t+1
,并通过雷达状态的转变s
t
→
s
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。