双层R-D3QN的雷达智能干扰决策方法及系统技术方案

技术编号：41282472 阅读：6 留言：0更新日期：2024-05-11 09:32

本发明专利技术公开了基于双层R‑D3QN的雷达智能干扰决策方法及系统，方法如下：S1、初始化工作模式记忆库和信号参数记忆库大小、记忆库指针，初始化双层R‑D3QN当前值网络和目标值网络、学习率、折扣因子、贪婪因子、工作模式规则库、信号参数规则库；S2、设置训练样本门限值，网络参数更新间隔、训练样本抽取间隔及网络更新计数器，初始化训练步骤数x，设置总训练次数；S3、进行训练；S4、更新工作模式规则库、信号参数规则库；S5、返回执行S3，直到x达到总训练次数，得到训练好的两个R‑D3QN模型的当前值网络；S6、利用当前值网络，对识别的雷达工作模式和信号参数，选择价值最高的干扰策略和参数。本发明专利技术提高了雷达干扰决策能力，针对雷达的工作模式能选择合适的干扰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于雷达认知电子战，具体涉及一种双层r-d3qn(rule-duelingdouble deep q-network)雷达智能干扰决策方法及系统，提出了一种新的雷达干扰场景建模，本专利技术可用于认知电子战领域。

技术介绍

1、simon haykin于2006年提出了“认知雷达”概念，相控阵天线技术和数字阵列雷达技术的成熟推动了雷达技术的发展。多功能雷达(mfr)作为代表，逐渐替代了专用雷达，成为各国雷达系统的关键设备。多功能雷达能够根据战场环境和任务需求实时改变工作参数，并具有较强的抗干扰能力。然而，由于雷达技术的不断发展，传统的干扰决策方法已经无法满足新体制雷达复杂多变的工作模式，因此需要一种智能干扰决策方法来应对多功能雷达带来的威胁。

2、强化学习是机器学习中的一个子领域，专门研究智能体如何在复杂的动态环境中进行决策以实现收益最大化。与有监督学习不同，强化学习通过与环境的交互来学习经验并优化策略，不需要显式的数据集和大量的先验知识。强化学习结合了深度学习技术后，形成了深度强化学习(drl)，具备强大的环境感知能力和不断优化的决策能力。基于深度强化学习的干扰决策技术可以感知战场电磁环境的变化，动态调整干扰策略，有效地对抗复杂的电磁情况。目前，dqn算法(deep q-network)、ddqn算法(double deep q-network)和d3qn算法等强化学习算法已经被应用于多功能雷达智能干扰决策中，并取得了较好的效果。

3、基于上述现状，本专利技术基于深度强化学习理论提出了一种基于双

技术实现思路

1、为了复杂电磁环境下提高雷达干扰决策性能，本专利技术提出了一种基于双层r-d3qn的雷达干扰决策方法及系统。

2、建立了如下仿真场景：单部雷达的雷达工作模式有搜索、边搜索边跟踪、搜索加跟踪等，每种工作模式下雷达信号的f0、pw、pri、bw、fc(载频、脉宽、脉冲重复间隔、带宽、调制频率)参数有特定的选择范围，可以表示为：

3、

4、其中，ci表示单部雷达第i个工作模式，n是工作模式的数量,为当前模式下雷达信号的参数。

5、单部干扰机的干扰样式有射频噪声、灵巧干扰、距离欺骗等，每种干扰信号参数b、p、pri、pn、fc(带宽、脉宽、脉冲重复间隔、噪声功率、中心频率)有特定的选择范围，可以表示为：

6、

7、其中，ji表示单部干扰机第i个干扰样式，m是干扰样式的数量，为当前干扰信号的参数。

8、从干扰信号角度，将干扰后可能发生的变化分为2层，并分别给出奖励函数。

9、1、雷达工作模式变化：有效的干扰可以影响雷达的正常工作，使得雷达从高威胁的工作模式逐步转为低威胁的工作模式，具体哪种雷达工作模式是高威胁的、哪种是低威胁的，由雷达执行不同的作战任务的需要去判断。雷达工作模式变化的奖励函数r1如下：

10、

11、2、雷达信号参数变化：当雷达被干扰后，通常会改变雷达发射信号参数，如采取捷变频等抗干扰措施，将工作频段切换至未被干扰噪声所覆盖的频段，设置δf0、δpw、δpri、δbw、δfc为雷达信号参数变化量阈值，变化量超出此值判定为雷达信号参数大幅变动。雷达信号参数变化的奖励函数r2如下：

12、

13、雷达工作状态c1转移矩阵p如下所示：

14、

15、式中，p(cm|c1,jn)表示雷达工作模式为c1的条件下，采取干扰策略jn，工作模式转移为cm的概率，其他工作模式同理。在雷达工作状态确定的条件下，雷达信号参数的转移矩阵也与其类似。

16、本专利技术一种基于双层r-d3qn的雷达干扰决策方法，包括如下步骤：

17、s1、初始化工作模式记忆库和信号参数记忆库大小mem、记忆库指针index，初始化双层r-d3qn当前值网络和目标值网络、学习率α、折扣因子γ、贪婪因子ε、工作模式规则库、信号参数规则库；

18、s2、设置训练样本门限值nth，网络参数更新间隔time、训练样本抽取间隔ntime(ntime＜nth)以及网络更新计数器count为0，初始化训练的步骤数x为1，设置总的训练次数n；

19、s3、进行训练：干扰方根据得到的雷达工作模式和信号参数，选择干扰样式和干扰参数得到干扰反馈的奖励，并将干扰样本存储到工作模式记忆库和信号参数记忆库，当样本数量足够的时候从中抽取样本并在工作模式规则库和信号参数规则库中选择对应的规则值进行网络训练；

20、s4、更新工作模式规则库和信号参数规则库；

21、s5、循环步骤s3的训练，直到x达到总的训练次数n，得到训练好的两个r-d3qn模型的当前值网络；

22、s6、利用当前值网络，针对识别的雷达工作模式和信号参数，选择价值最高的干扰策略和干扰参数。

23、进一步的，步骤s1中，贪婪因子ε是ε-贪婪算法的超参数，完全贪婪算法在每一时刻选择价值最大的策略，这是纯粹的利用，而没有探索。ε-贪婪算法在此基础上添加了噪声每次以ε的概率随机选择策略，以1-ε的概率选择价值最大的策略平衡了利用和探索的关系。

24、

25、本专利技术在此基础上再做出改进，随着探索次数的不断增加，对各个动作的奖励估计得越来越准，此时停止探索。所以在ε-贪婪算法的具体实现中，令ε随时间衰减，即探索的概率将会不断降低。表示如下：

26、

27、进一步的，步骤s3具体如下：

28、s31、干扰方根据t时刻输入的雷达工作模式cm、信号参数利用当前值网络选择干扰策略jn和干扰参数干扰方获得收益r1t+1、并侦察下一时刻的雷达的工作模式ck与信号参数

29、s32、将干扰经验样本

30、<cm,jn,r1t+1,ck>

31、

32、存入记忆库中，指针index加1；

33、s33、index＞nth时，从工作模式记忆库中随机抽取ntime个经验样本，计算每个样本的当前q值q(cm,jn|θ,ωa,ωv)，并从工作模式规则库中取出相应的规则值τmn，利用目标q值计算优化目标y＝r1t+1+γq(ck,argmaxjq(ck,j|θ,ωa,ωv)|θ-,ωa,ωv)+τmn，最小化由优化目标和当前q值构建的均方误差l(θ)＝1/ntime∑(y-q(ci,ji|θ,ωa,ωv))2，以此训练当前q值网络，同时count加1，信号参数网络的更新过程同理，其中q值网络构建为

【技术保护点】

1.基于双层R-D3QN的雷达智能干扰决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于双层R-D3QN的雷达智能干扰决策方法，其特征在于，步骤S1中，贪婪因子ε的贪婪算法中，令ε随时间衰减，表示如下：

3.根据权利要求2所述基于双层R-D3QN的雷达智能干扰决策方法，其特征在于，步骤S3具体如下：

4.根据权利要求1-3任一项所述基于双层R-D3QN的雷达智能干扰决策方法，其特征在于，步骤S4中，更新工作模式规则库：τij(t+1)＝τij(t)+Δτij(t)

5.基于双层R-D3QN的雷达智能干扰决策系统，基于权利要求1-4任一项所述的方法，其特征在于，包括以下模块：

【技术特征摘要】

1.基于双层r-d3qn的雷达智能干扰决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于双层r-d3qn的雷达智能干扰决策方法，其特征在于，步骤s1中，贪婪因子ε的贪婪算法中，令ε随时间衰减，表示如下：

3.根据权利要求2所述基于双层r-d3qn的雷达智能干扰决策方法，其特征在于，步...

【专利技术属性】
技术研发人员：尹帅，陈海龙，孙闽红，李敏乐，仇兆炀，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人