结合行为克隆和近端策略优化算法的干扰决策方法及系统技术方案

技术编号:37844469 阅读:11 留言:0更新日期:2023-06-14 22:27
本发明专利技术公开了一种结合行为克隆和近端策略优化算法的干扰决策方法及系统,本发明专利技术方法包括如下步骤:S1、随机初始化策略网络的网络参数和价值网络的网络参数;S2、基于行为克隆方法,训练策略网络;S3、干扰机根据当前策略与雷达进行交互,采样轨迹数据,并存入数据集中;S4、干扰机使用近端策略优化算法利用数据集中的轨迹数据进行策略网络优化;S5、重复执行步骤S3和步骤S4,直到得到最优策略。本发明专利技术在提升策略训练速度的同时,极大提高了干扰机的安全性。全性。全性。

【技术实现步骤摘要】
结合行为克隆和近端策略优化算法的干扰决策方法及系统


[0001]本专利技术属于雷达电子对抗领域,具体涉及一种结合行为克隆和近端策略优化算法的干扰决策方法及系统,本专利技术技术方案可应用于电子对抗系统中。

技术介绍

[0002]现代科学技术的高速发展推动着军事对抗的重心从实体战向信息战的转移,电子战是信息战中最重要的部分。电子战的核心是以雷达为中心,争夺电磁频谱使用和控制权。在现代科技的加持下,现代雷达的功能越来越丰富,抗干扰能力越来越强,对敌方雷达进行干扰的难度越来越大。如何选择最合适的干扰样式,对敌方雷达产生最有效的干扰,成为电子对抗领域研究的一个重点。
[0003]现有的雷达干扰决策方法研究集中在强化学习算法的应用,强化学习算法可以通过交互的形式根据实际环境动态地调整策略,在策略调整初期,强化学习算法通过随机策略探索环境,但在雷达干扰决策领域,随机策略会决策出无效的干扰样式,无效的干扰行为不但不能对敌方雷达造成干扰,反而会提前暴露我方干扰机的位置,这使其无法直接应用于雷达干扰决策。因此,如何提高雷达干扰决策算法的安全性具有极高运用价值。

技术实现思路

[0004]针对在复杂电磁环境中对敌方多功能雷达如何进行安全且有效干扰的问题,本专利技术提出了一种结合行为克隆和近端策略优化算法的干扰决策方法及系统。
[0005]为实现上述专利技术目的,本专利技术采用如下技术方案:
[0006]结合行为克隆和近端策略优化算法的干扰决策方法,其按如下步骤进行:
[0007]S1、随机初始化策略网络π
θ
的网络参数θ和价值网络V
φ
的网络参数φ;
[0008]S2、基于行为克隆方法,训练策略网络π
θ

[0009]S3、干扰机根据当前策略与雷达进行交互,采样轨迹数据τ,并存入数据集D
k
中;
[0010]S4、干扰机使用近端策略优化算法利用数据集D
k
中的轨迹数据进行策略网络优化;
[0011]S5、重复交替执行步骤S3和步骤S4,直到得到最优策略
[0012]作为优选方案,步骤S2中,基于行为克隆方法,训练策略网络π
θ
,其过程包括以下步骤:
[0013]S21、根据已有的先验知识生成先验数据集D
p
={(s
i
,j
i
)|i=1,

,N},(s
i
,j
i
)表示第i个的雷达状态

干扰样式对;
[0014]S22、使用数据集D
p
根据目标函数训练策略网络,目标函数为:
[0015][0016]其中,N是专家知识库的大小而i表示s
i
和j
i
是在同一个时间步的,||x||2表示x的2

范数。
[0017]作为优选方案,步骤S3中,干扰机根据当前策略与雷达进行交互,采样轨迹数据τ,其过程包括以下步骤:
[0018]S31、初始化:干扰机按照既定路线飞过雷达信号覆盖区域。
[0019]S32、雷达不断发出脉冲信号扫描临近空域,并按照雷达工作逻辑对发现的目标进行跟踪和制导打击。
[0020]S33、干扰机在t时刻后的一段处理时间内接收雷达脉冲信号并提取出各个脉冲的脉冲描述字(PDW)。
[0021]脉冲描述字(PDW)包含6个雷达脉冲参数:脉冲到达时间(TOA)、脉冲到达方位角(DOA)、脉宽(PW)、带宽(BW)、载频(CF)和脉内调制特征(F)。第i个脉冲的PDW可表示为
[0022]PDW
i
={TOA
i
,DOA
i
,PW
i
,BW
i
,CF
i
,F
i
}
[0023]S34、干扰机通过一组脉冲描述字识别出雷达工作模式,并对雷达状态进行编码s
t
[0024][0025]其中,为向量拼接符号,s
t
表示t时刻的雷达状态;f
n
,n∈[1,N]表示雷达状态s
t
所对应的雷达功能;p
m
,m∈[1,M]表示雷达功能f
n
所包含的雷达短语;{w
i
,w
j
,w
k
,w
l
},i,j,k,l∈[1,T]表示雷达短语p
m
所对应的雷达字。
[0026]S35、干扰机根据雷达状态编码s
t
和策略得到干扰样式并向雷达发送相应的干扰信号。
[0027]常见的干扰样式有:噪声调频干扰、噪声调幅干扰、噪声调相干扰、调幅调频干扰、距离欺骗干扰、速度欺骗干扰、距离

速度联合欺骗干扰、密集假目标干扰和灵巧干扰。
[0028]S36、雷达受到干扰后根据雷达接收机处理结果转变工作状态,干扰机通过再次实施步骤S34得到雷达新状态的编码s
t+1
,并通过雷达状态的转变s
t

s
t+1
,根据奖励函数R得到奖励r
t

[0029]奖励函数依据雷达工作状态的威胁等级定义如下:
[0030][0031]S37、不断重复步骤S32

S36并记录每次干扰机与雷达的交互轨迹序列(s
t
,j
t
,r
t
),直到干扰机飞出雷达信号覆盖区域或干扰机被雷达制导摧毁。轨迹τ表达式为:
[0032]τ={(s1,j1,r1),(s2,j2,r2),

,(s
T
,j
T
,r
T
)}
[0033]其中,T为终止时刻,即T时刻干扰机飞出雷达信号覆盖区域(突防成功)或被雷达制导摧毁(突防失败)。
[0034]S38、将根据策略采样得到的轨迹数据存入集合D
k

[0035]作为优选方案,步骤S4中,干扰机利用数据集D
k
中的轨迹数据进行策略网络优化,其过程包括以下步骤:
[0036]S41、从干扰机与雷达交互的轨迹序列集合中取出根据策略交互得到的轨迹τ,τ∈D
k
计算轨迹中每步的回报G
t
[0037][0038]其中,γ为折扣因子
[0039]S42、基于当前价值函数V计算优势函数A
[0040]A
t
(s
t
,j
t
)=r
t
+V(s
t+1
)

V(s
t
)
[0041]S43、基于近端策略优化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.结合行为克隆和近端策略优化算法的干扰决策方法,其特征在于,包括以下步骤:S1、随机初始化策略网络π
θ
的网络参数θ和价值网络V
φ
的网络参数φ;S2、基于行为克隆方法,训练策略网络π
θ
;S3、干扰机根据当前策略与雷达进行交互,采样轨迹数据τ,并存入数据集D
k
;S4、干扰机使用近端策略优化算法利用数据集D
k
中的轨迹数据进行策略网络优化;S5、重复执行步骤S3和步骤S4,得到最优策略2.根据权利要求1所述的结合行为克隆和近端策略优化算法的干扰决策方法,其特征在于,步骤S2中,基于行为克隆方法,训练策略网络,具体包括以下步骤:S21、根据已有的先验知识生成先验数据集D
p
={(s
i
,j
i
)|i=1,

,N},(s
i
,j
i
)表示第i个的雷达状态

干扰样式对;S22、采用数据集D
p
根据目标函数训练策略网络,目标函数为:其中,N是专家知识库的大小,i表示s
i
和j
i
是在同一个时间步的,||x||2表示x的2

范数。3.根据权利要求2所述的结合行为克隆和近端策略优化算法的干扰决策方法,其特征在于,步骤S3中,干扰机与雷达进行交互,具体包括以下步骤:S31、初始化:干扰机按照既定路线飞过雷达信号覆盖区域;S32、雷达不断发出脉冲信号扫描临近空域,并按照雷达工作逻辑对发现的目标进行跟踪和制导打击;S33、干扰机在t时刻后的一段处理时间内接收雷达脉冲信号并提取各个脉冲的脉冲描述字PDW;脉冲描述字PDW包含六个雷达脉冲参数如下:脉冲到达时间TOA、脉冲到达方位角DOA、脉宽PW、带宽BW、载频CF和脉内调制特征F;第i个脉冲的PDW表示为PDW
i
={TOA
i
,DOA
i
,PW
i
,BW
i
,CF
i
,F
i
}S34、干扰机通过一组脉冲描述字识别出雷达工作模式,并对雷达状态进行编码s
t
其中,为向量拼接符号,s
t
表示t时刻的雷达状态;f
n
,n∈[1,N]表示雷达状态s
t
所对应的雷达功能;p
m
,m∈[1,M]表示雷达功能f
n
所包含的雷达短语;{w
i
,w
j
,w
k
,w
l
},i,j,k,l∈[1,T]表示雷达短语p
m
所对应的雷达字;S35、干扰机根据雷达状态编码s
t
和策略得到干扰样式并向雷达发送相应的干扰信号;S36、雷达受到干扰后根据雷达接收机处理结果转变工作状态,干扰机通过再次实施步骤S34得到雷达新状态的编码s
t+1
,并通过雷达状态的转变s
t

s

【专利技术属性】
技术研发人员:娄雨璇孙闽红
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1