一种基于回溯DQN的雷达抗干扰智能决策方法技术

技术编号:37962975 阅读:6 留言:0更新日期:2023-06-30 09:38
本发明专利技术涉及一种基于回溯DQN的雷达抗干扰智能决策方法,包括:根据接收的回波信号的干扰类型,确定对应的干扰状态;根据干扰状态,利用训练完成的DQN算法神经网络,遍历抗干扰方法库中的抗干扰方法,实现雷达抗干扰智能决策;其中,利用基于回溯更新Q值的方法对DQN算法神经网络进行训练,得到训练完成的DQN算法神经网络。本发明专利技术方法结合雷达抗干扰技术与强化学习中的DQN算法,提出了一种回溯DQN算法,该算法在目标网络的更新公式中加入了回溯更新Q值,该回溯更新Q值的引入能降低优数据变化的影响,提高雷达智能决策系统的稳健性,增强雷达的抗干扰能力。雷达的抗干扰能力。雷达的抗干扰能力。

【技术实现步骤摘要】
一种基于回溯DQN的雷达抗干扰智能决策方法


[0001]本专利技术属于雷达
,具体涉及一种基于回溯DQN的雷达抗干扰智能决策方法。

技术介绍

[0002]随着干扰技术的不断发展升级,干扰机的干扰能力越发强大,使得雷达面临的干扰类型不断增多,如间歇采样转发干扰,频谱弥散干扰等新型干扰会严重降低雷达的性能,影响雷达的目标搜索,跟踪能力。此外,雷达面临的干扰场景也越发复杂,雷达不仅会接收到单一干扰,还会接收到由多种干扰糅合而成的复合干扰,这些都给雷达的生存能力带来极大挑战,而传统由人工设计编排的雷达抗干扰策略则难以应对多变的干扰环境。
[0003]国内的汪浩学者在“强化学习算法在雷达智能抗干扰中的应用”一文中提出了一种基于Q学习算法的智能化抗干扰方法,其将Q学习算法应用到雷达智能化抗干扰体系中,实现了由雷达智能决策替代人工设计编排抗干扰策略的目标。
[0004]由于雷达的接收信号都是动态变化的,因此即使是同一种抗干扰方法,其带来的评估反馈也是动态变化的,这种浮动的反馈信息将会影响算法的收敛性,影响抗干扰策略的调整升级。而且,对于Q学习算法来说,必须构建一个大小与“状态

行为”对数量相对应的Q表格。当“状态

行为”对的数量太多时,Q学习将会占据较多的存储空间,在实际中会对雷达性能产生严重影响。

技术实现思路

[0005]为了解决现有技术中存在的上述问题,本专利技术提供了一种基于回溯DQN的雷达抗干扰智能决策方法。本专利技术要解决的技术问题通过以下技术方案实现:本专利技术提供了一种基于回溯DQN的雷达抗干扰智能决策方法,包括:根据接收的回波信号的干扰类型,确定对应的干扰状态;根据所述干扰状态,利用训练完成的DQN算法神经网络,遍历抗干扰方法库中的抗干扰方法,实现雷达抗干扰智能决策;其中,利用基于回溯更新Q值的方法对所述DQN算法神经网络进行训练,得到训练完成的DQN算法神经网络。
[0006]在本专利技术的一个实施例中,在根据接收的回波信号的干扰类型,确定对应的干扰状态之前,所述基于回溯DQN的雷达抗干扰智能决策方法还包括:对雷达面临的干扰类型进行排列组合,得到多种对干扰类型组合,对每一种干扰类型组合设置对应的干扰状态,建立干扰类型状态表;对所述抗干扰方法库中的每一种抗干扰方法设置对应的标记值,建立抗干扰方法标记列表。
[0007]在本专利技术的一个实施例中,根据接收的回波信号的干扰类型,确定对应的干扰状态,包括:
利用干扰识别算法识别所述回波信号的干扰类型;根据所述干扰类型状态表确定所述回波信号的干扰类型对应的干扰状态。
[0008]在本专利技术的一个实施例中,利用基于回溯更新Q值的方法对所述DQN算法神经网络进行训练,得到训练完成的DQN算法神经网络,包括:步骤1:构建DQN算法神经网络并进行初始化,所述DQN算法神经网络包括结构相同的主网络和目标网络,其中,所述DQN算法神经网络的输入为干扰状态和抗干扰方法的标记值,输出作为Q值;步骤2:获取训练回波数据,确定所述训练回波数据的干扰类型以及对应的干扰状态,所述训练回波数据作为当前的训练回波数据,所述训练回波数据包括多种干扰类型;步骤3:根据当前的训练回波数据,利用贪婪算法从所述抗干扰方法库中选择一个抗干扰方法;步骤4:按照先空域后时频域的处理顺序,使用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理并对处理结果进行评估,获取干扰抑制处理后的训练回波数据的干扰状态以及该抗干扰方法的评估结果;步骤5:将当前的训练回波数据的干扰状态、选择的抗干扰方法、该抗干扰方法的评估结果以及干扰抑制处理后的训练回波数据的干扰状态,组合成一条经验并存入经验池中;步骤6:将干扰抑制处理后的训练回波数据作为当前的训练回波数据,重复步骤3

步骤5直至对所述训练回波数据中的所有干扰类型进行干扰抑制处理之后,完成一轮训练,对本轮训练中的关键经验进行回溯,根据关键经验的抗干扰方法的评估结果计算回溯更新Q值,对本轮训练存储的经验进行改写;步骤7:一轮训练完成后,重复步骤2

步骤6利用所述训练回波数据进行下一轮训练;步骤8:当经验池存满时,进入所述DQN算法神经网络的更新阶段,在所述DQN算法神经网络的更新阶段,重复步骤2

步骤7,同时在按照步骤5将生成的经验存入经验池中之后,从所述经验池之中抽取预设数量的经验,以对DQN算法神经网络的网络参数进行更新,直至达到预设的训练轮次,得到训练完成的DQN算法神经网络;其中,按照先进先出的原则,将新生成的经验覆盖所述经验池中的旧经验。
[0009]在本专利技术的一个实施例中,所述步骤3包括:步骤3.1:设置贪婪系数,其中,;步骤3.2:以的概率从所述抗干扰方法库中随机选择一个抗干扰方法,以的概率根据所述DQN算法神经网络的主网络的输出结果选择一个抗干扰方法;其中,根据所述DQN算法神经网络的主网络的输出结果选择一个抗干扰方法,包括:将当前的训练回波数据的干扰状态和所述抗干扰方法库中抗干扰方法的标记值依次输入至所述主网络中,确定所述主网络输出的最大Q值,将最大Q值对应的抗干扰方法作为选择结果。
[0010]在本专利技术的一个实施例中,所述步骤4包括:步骤4.1:判断选择的抗干扰方法是否作为当前的训练回波数据的首次干扰抑制
处理的抗干扰方法,判断选择的抗干扰方法是否为空域抗干扰方法;步骤4.2:若当前的训练回波数据的首次干扰抑制处理的抗干扰方法不是空域抗干扰方法,则不进行干扰抑制处理,并将不高于

50dB的评价指标值作为该抗干扰方法的评估结果;步骤4.3:若当前的训练回波数据的首次干扰抑制处理的抗干扰方法是空域抗干扰方法,则利用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理,并根据空域抗干扰评价指标计算得到评价指标值作为该抗干扰方法的评估结果;步骤4.4:若当前的训练回波数据的非首次干扰抑制处理的抗干扰方法是空域抗干扰方法,则不进行干扰抑制处理,并将不高于

50dB的评价指标值作为该抗干扰方法的评估结果;步骤4.5:若当前的训练回波数据的非首次干扰抑制处理的抗干扰方法不是空域抗干扰方法,则利用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理,并根据时频域抗干扰评价指标计算得到评价指标值作为该抗干扰方法的评估结果;步骤4.6:当选择的抗干扰方法与当前的训练回波数据中的一种干扰类型相对应,那么,使用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理后,认为该干扰类型已被抑制,对应的干扰抑制处理后的训练回波数据的干扰状态发生转变,否则干扰抑制处理后的训练回波数据的干扰状态不变。
[0011]在本专利技术的一个实施例中,所述空域抗干扰评价指标为:;式中,表示空域抗干扰评价指标,表示目标信号协方差矩阵,表示干扰及噪声协方差矩阵,表示空域权矢量,表示转置;所述时频域抗干扰评价指标为:;式中,表示时频域抗干扰评价指标,表示脉冲压缩后目标位置处的信号幅度,表示干扰及噪声的幅度均值。
[0012]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于回溯DQN的雷达抗干扰智能决策方法,其特征在于,包括:根据接收的回波信号的干扰类型,确定对应的干扰状态;根据所述干扰状态,利用训练完成的DQN算法神经网络,遍历抗干扰方法库中的抗干扰方法,实现雷达抗干扰智能决策;其中,利用基于回溯更新Q值的方法对所述DQN算法神经网络进行训练,得到训练完成的DQN算法神经网络。2.根据权利要求1所述的基于回溯DQN的雷达抗干扰智能决策方法,其特征在于,在根据接收的回波信号的干扰类型,确定对应的干扰状态之前,所述基于回溯DQN的雷达抗干扰智能决策方法还包括:对雷达面临的干扰类型进行排列组合,得到多种对干扰类型组合,对每一种干扰类型组合设置对应的干扰状态,建立干扰类型状态表;对所述抗干扰方法库中的每一种抗干扰方法设置对应的标记值,建立抗干扰方法标记列表。3.根据权利要求2所述的基于回溯DQN的雷达抗干扰智能决策方法,其特征在于,根据接收的回波信号的干扰类型,确定对应的干扰状态,包括:利用干扰识别算法识别所述回波信号的干扰类型;根据所述干扰类型状态表确定所述回波信号的干扰类型对应的干扰状态。4.根据权利要求1所述的基于回溯DQN的雷达抗干扰智能决策方法,其特征在于,利用基于回溯更新Q值的方法对所述DQN算法神经网络进行训练,得到训练完成的DQN算法神经网络,包括:步骤1:构建DQN算法神经网络并进行初始化,所述DQN算法神经网络包括结构相同的主网络和目标网络,其中,所述DQN算法神经网络的输入为干扰状态和抗干扰方法的标记值,输出作为Q值;步骤2:获取训练回波数据,确定所述训练回波数据的干扰类型以及对应的干扰状态,所述训练回波数据作为当前的训练回波数据,所述训练回波数据包括多种干扰类型;步骤3:根据当前的训练回波数据,利用贪婪算法从所述抗干扰方法库中选择一个抗干扰方法;步骤4:按照先空域后时频域的处理顺序,使用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理并对处理结果进行评估,获取干扰抑制处理后的训练回波数据的干扰状态以及该抗干扰方法的评估结果;步骤5:将当前的训练回波数据的干扰状态、选择的抗干扰方法、该抗干扰方法的评估结果以及干扰抑制处理后的训练回波数据的干扰状态,组合成一条经验并存入经验池中;步骤6:将干扰抑制处理后的训练回波数据作为当前的训练回波数据,重复步骤3

步骤5直至对所述训练回波数据中的所有干扰类型进行干扰抑制处理之后,完成一轮训练,对本轮训练中的关键经验进行回溯,根据关键经验的抗干扰方法的评估结果计算回溯更新Q值,对本轮训练存储的经验进行改写;步骤7:一轮训练完成后,重复步骤2

步骤6利用所述训练回波数据进行下一轮训练;步骤8:当经验池存满时,进入所述DQN算法神经网络的更新阶段,在所述DQN算法神经网络的更新阶段,重复步骤2

步骤7,同时在按照步骤5将生成的经验存入经验池中之后,从
所述经验池之中抽取预设数量的经验,以对DQN算法神经网络的网络参数进行更新,直至达到预设的训练轮次,得到训练完成的DQN算法神经网络;其中,按照先进先出的原则,将新生成的经验覆盖所述经验池中的旧经验。5.根据权利要求4所述的基于回溯DQN的雷达抗干扰智能决策方法,其特征在于,所述步骤3包括:步骤3.1:设置贪婪系数,其中,;步骤3.2:以的概率从所述抗干扰方法库中随机选择一个抗干扰方法,以的概率根据所述DQN算法神经网络的主网络的输出结果选择一个抗干扰方法;其中,根据所述DQN算法神经网络的主网络的输出结果选择一个抗干扰方法,包括:将当前的训练回波数据的干扰状态和所述抗干扰方法库中抗干扰方法的标记值依次输入至所述主网络中,确定所述主网络输出的最大Q值,将最大Q值对应的抗干扰方法作为选择结果。6.根据权利要求4所述的基于回溯DQN的雷达抗干扰智能决策方法,其特征在于,所述步骤4包括:步骤4.1:判断选择的抗干扰方法是否作为当前的训练回波数据的首次干扰抑制处理的抗干扰方法,判断选择的抗干扰方法是否为空域抗干扰方法;步骤4.2:若当前的训练回波数据的首次干扰抑制处理的抗干扰方法不是空域抗干扰方法,则不进行干扰抑制处理,并将不高于

50dB的评价指标值作为该抗干扰方法的评估结果;步骤4.3:若当前的训练回波数据的首次干扰抑制处理的抗干扰方法是空域抗干扰方法...

【专利技术属性】
技术研发人员:兰岚朱圣棋张翔李西敏全英汇许京伟廖桂生黄磊
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1