基于深度强化学习的雷达干扰决策方法技术

技术编号:24289985 阅读:114 留言:0更新日期:2020-05-26 20:11
本发明专利技术公开了基于深度强化学习的雷达干扰决策方法,主要解决现有技术中决策仅依赖干扰方做决策导致决策结果片面,及工作模式识别慢导致决策效率低的问题。其实现方案为:1)根据工作模式的特征信号生成训练集训练雷达工作模式识别器;2)根据工作模式的最小威胁值构造判决器;3)构建雷达方的工作模式转移矩阵;4)构建干扰方的干扰收益矩阵;5)构建包括雷达工作模式识别器、判决器、雷达方和干扰方的干扰决策系统;7)随机采样仿真信号,输入干扰决策系统进行选取干扰策略的工作,直到满足决策输出条件,输出决策结果。本发明专利技术提高了决策的效率和决策结果的可信度,可用于当干扰方侦察到雷达的特征信号时,保证干扰方做出最优的干扰策略。

Radar jamming decision method based on deep reinforcement learning

【技术实现步骤摘要】
基于深度强化学习的雷达干扰决策方法
本专利技术属于电子对抗
,尤其涉及一种雷达干扰决策方法,可用于当干扰方侦察到雷达的特征信号时,保证干扰方做出最优的干扰策略。
技术介绍
雷达对抗作为电子对抗领域中重要的一部分,是现代信息化战争的重要环节。雷达干扰决策作为雷达干扰的核心环节,是指在已有雷达先验知识库的基础上,通过对比匹配或相应算法选择适用于雷达不同工作模式的干扰样式的过程。XingQiang等人在其发表的论文“IntelligentCountermeasureDesignofRadarWorking-modesUnknown”中提出了基于Q-learning的智能干扰决策算法。该方法的具体步骤是:第一步,初始化Q(SRt,aj)状态动作值函数、学习率α、折扣因子γ;第二步,侦查当前环境,识别雷达的当前工作模式;第三步,选择一种干扰样式aj并根据ε贪心策略执行;第四步,继续侦查雷达工作模式,判断新的工作状态SRt+1,计算回报价值rRt;第五步,根据式子更新动作值函数Q(SRt,aj),并且如果是新的状态,添加至相应的状态序列中;第本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的雷达干扰决策方法,其特征在于,包括如下:/n(1)在已知雷达工作模式对应的特征信号范围内生成对应工作模式的训练数据集,并用对应工作模式的训练数据集训练雷达工作模式识别器D;/n(2)根据雷达不同工作模式威胁程度的大小,给不同的工作模式标记一个威胁值,不同模式的威胁值用G表示:/nG=[grd

【技术特征摘要】
1.一种基于深度强化学习的雷达干扰决策方法,其特征在于,包括如下:
(1)在已知雷达工作模式对应的特征信号范围内生成对应工作模式的训练数据集,并用对应工作模式的训练数据集训练雷达工作模式识别器D;
(2)根据雷达不同工作模式威胁程度的大小,给不同的工作模式标记一个威胁值,不同模式的威胁值用G表示:
G=[grd1,…,grdi,…,grdm]
其中,grdi表示第i中工作模式的威胁值,i=[1,…,m],m表示雷达工作模式的总数量;
(3)根据雷达不同工作模式的威胁值构造判决器W;
(4)根据雷达受到不同形式的干扰手段,构建雷达方R的工作模式转移矩阵Z:



其中,pij表示当雷达受到i种干扰时转移到工作模式j的概率,i=[1,…,n],n表示干扰方式的总数量,j=[1,…,m],m表示雷达工模模式的总数量;
(5)根据不同干扰方式对达到的干扰效果,构建干扰方J的干扰收益转移矩阵Y:



其中,rij表示针对第i种工作模式采用第j种干扰方式获得的收益,i=[1,…,m],m表示雷达工作模式的总数量,j=[1,…,n],n表示干扰方式的总数量;
(6)搭建包含雷达工作模式识别器D、干扰方J、雷达方R以及判决器W的干扰决策系统;
(7)通过Matlab软件仿真雷达不同工作模式对应的特征信号序列,随机采样一段特征信号,作为干扰决策系统的输入;
(8)通过雷达工作模式识别器D感知当前环境的特征信号,识别其工作模式,并将识别的工作模式输入给判决器W;
(9)根据输入给判决器W工作模式的威胁值,判断干扰过程是否结束:
若输入给判决器W的工作模式威胁值最小时,则干扰过程结束;
否则,将输入给判决器的工作模式输入给干扰方,干扰方J根据输入的工作模式选择对应的干扰方式,并记录下所选的干扰方式,执行(10)
(10)雷达方R根据所受到的干扰调整雷达自身的工作模式并发出新工作模式对应的特征信号数据;
(11)重复(8)-(10),直到输入到判决器W的工作模式的威胁值最小,干扰决策系统输出干扰策略,整个干扰过程结束。


2.根据权利要求1所述的方法,其特征在于:(1)中的雷达工作模式对应特征信号范围,用矩阵F表示如下:



其中RF表示信号载频,PW表示信号脉宽,PRF表示脉冲重复频率,DR表示数据率,[RFimin,RFimax]表示第i种工作模式的载频范围,[PWimin,PWimax]表示第i种工作模式的脉宽范围,[PRFimin,PRFimax]表示第i种工作模式的脉冲重复频率范围,[DRi]表示第i种工作模式的数据率,i=[1,…,m],m表示工作模式的总数。


3.根据权利要求1所述的方法,其特征在于:(1)中的用对应工作模式的训练数据集训练雷达工作模式识别器D,实现如下:
1a)选用非线性支持向量机SVM构建雷达工作模式识别器,选取不同模式里差别较大的特征信号作为识别不同模式的超平面;
1b)设置非线性支持向量机SVM的迭代次数为500次,将对应工作模式的训练数据集输入至设置好的SVM中,通过序列最小最优SMO算法进行迭代,当迭代次数达到500或者每个样本之间满足卡罗需-库恩-塔克KKT条件时,结束训练,得到训练好的单一模式识别模型。


4.根据权利要求1所述的方法,其特征在于:(3)中的根据雷达不同工作模式的威胁值构造判决器W,选用最小的威胁值作为决策树的节点,用该决策树作为判别器W。


5.根据权利要求1所述的方法,其特征在于:(4)中的根据雷达受到不同形式的干扰手段,构建雷达方的工作模式转移矩阵Z,实现如下:
4a)分析干扰方式实施干扰的效果与雷达不同工作模式作用的区别;
4b)根据实施干扰的效果,选择出雷达收到特定干扰后能转移的工作模式类;
4c)雷达方R计算...

【专利技术属性】
技术研发人员:饶鲜李永锋董春曦董阳阳刘明明
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1