【技术实现步骤摘要】
一种基于DQN的动态抗主瓣干扰方法
[0001]本专利技术属于雷达信号处理
,具体涉及一种基于DQN的动态抗主瓣干扰方法。
技术介绍
[0002]在复杂电磁环境中保证生存且完成探测任务,一直是雷达领域关注的重点问题。雷达干扰技术已从最初的噪声阻塞式干扰、放置人为干扰源等简单手段,发展为欺骗式干扰或者多种干扰并存的复杂形式。同时,如果干扰进入雷达的主瓣波束内,也会由于干扰难以去除而影响目标检测的性能。
[0003]相关技术中,一类是对干扰进行处理,估计干扰参数或者进行干扰识别,通过设计滤波器进行干扰滤除;此类方法适合高干信比下的干扰抑制,在低干信比下,由于干扰能量较低,干扰的识别以及干扰参数估计受噪声影响较大,该情况下干扰的参数估计或识别可能有误从而使干扰无法完全滤除。另一类是对目标进行处理,通过保留目标成分或提高目标能量来达到抑制干扰的效果;此类方案适合低干信比下的干扰抑制,此时干扰能量较低,目标成分相对容易获取,提高目标的能量也可以提高目标检测率;但是在高干信比下,强干扰会使目标成分被掩盖,也会使得保留的目标成分存在干扰旁瓣进而影响目标检测。由此可见,单一的策略方案存在较大的局限,方案的有效性容易受到干信比和信噪比等因素的影响,如果未知干信比和信噪比则较难判断采用的策略。在复杂的干扰环境下,单一的抗主瓣干扰策略会导致目标检测性能的下降。
[0004]因此,亟需改善现有技术中存在的上述缺陷。
技术实现思路
[0005]为了解决现有技术中存在的上述问题,本专利技术提供了一种基于DQ ...
【技术保护点】
【技术特征摘要】
1.一种基于DQN的动态抗主瓣干扰方法,其特征在于,包括:获取回波信号,对所述回波信号进行采样处理,获取回波信号数据;对所述回波信号数据取模值,获取回波信号的模值向量;使用训练好的抗主瓣干扰策略选择模型,对所述回波信号的模值向量进行处理,得到编码向量;根据所述编码向量,确定所述训练好的抗主瓣干扰策略选择模型对应的选择动作;根据所述选择动作,确定对应的抗主瓣干扰策略;其中,每个所述选择动作对应一种所述抗主瓣干扰策略。2.根据权利要求1所述的基于DQN的动态抗主瓣干扰方法,其特征在于,还包括:构建动作空间A和状态空间S;其中,所述动作空间包括多个动作a
t
,每个所述动作a
t
对应一种抗主瓣干扰策略;状态空间S包括多个状态s
t
,所述状态s
t
包括信噪比和干信比。3.根据权利要求2所述的基于DQN的动态抗主瓣干扰方法,其特征在于,所述训练好的抗主瓣干扰策略选择模型的构建过程包括:获取训练样本集,所述训练样本集包括多个不同信噪比、不同干信比和干扰距离随机的回波信号的模值向量样本;初始化待训练的神经网络的网络参数;将所述训练样本集输入至所述待训练的神经网络,使所述待训练的神经网络根据所述回波信号的模值向量样本得到选择动作;预设损失函数,根据所述选择动作和所述预设损失函数,获取损失值;判断所述损失值是否小于等于预设阈值,如果否,则更新所述待训练的神经网络的网络参数,并将所述训练样本集输入至更新网络参数的待训练的神经网络再处理;如果是,则获取所述待训练的神经网络的网络参数,构建所述训练好的抗主瓣干扰策略选择模型。4.根据权利要求3所述的基于DQN的动态抗主瓣干扰方法,其特征在于,所述损失值的获取过程包括:根据所述回波信号的模值向量样本对应的所述状态s
t
,获取所述动作a
t
对应的Q值,并选择Q值最大的方案,并将其作为选择动作a
t
;其中,所述动作包括至少两个方案;根据所述动作对应的Q值,获取TD target的预测值,其表达式为:其中,y
t
为TD target的预测值,r
t
为回报值,即动作a
t
、状态s
t
下的检测概率Pd(SNR,JSR,a
t
),γ为学习率,a
t
为动作,w为神经网络参数,s
t+1
为下一时刻的状态;预设损失函数,根据所述TD target预测值,获取所述损失值,所述预设损失函数的表达式为:其中,L为损失值,Q(s
t
,a
t
;w)为所述待训练的神经网络的网络参数w
t
下,对应动作a
t
、状态s
t
的Q值。5.根据权利要求4所述的基于DQN的动态抗主瓣干扰方法,其特征在于,所述根据所述
回波信号数据模值向量样本对应的所述状态s
t
,获取所述动作对应的Q值,并选择Q值最大的方...
【专利技术属性】
技术研发人员:纠博,徐丹蕾,刘若帆,张钰,刘宏伟,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。