一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质制造方法及图纸

技术编号：37344520 阅读：12 留言：0更新日期：2023-04-22 21:36

一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质，涉及雷达信号处理与智能博弈领域。本发明专利技术解决了智能认知雷达在干扰场景与样式复杂多变的情况下，抗干扰波形无法快速有效的判断决策的问题。方法包括：雷达与干扰环境进行数据交互，获取仿真干扰波形；根据当前时刻回波波形与前一时刻的回波波形，计算获得抗干扰行为的奖励值，并存入记忆库；离线训练模块采用记忆库储存的数据进行神经网络的训练与更新，获得预训练模型；在线学习模块加载离线训练模块的预训练模型，进行雷达的在线学习，获得深度强化学习的雷达波形博弈系统。本发明专利技术应用于认知雷达波形对抗博弈智能决策领域。博弈智能决策领域。博弈智能决策领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的雷达波形博弈系统构建方法、装置、计算机及储存介质

[0001]本专利技术涉及雷达信号处理与智能博弈领域，尤其涉及一种基于深度强化学习的雷达波形博弈系统构建方法。

技术介绍

[0002]随着现代电子战的发展，雷达面临着来自干扰机的更大的威胁与挑战。在这些不同类型的干扰方式中，主瓣干扰尤其难以应对。
[0003]对抗主瓣干扰的抗干扰方法可分为两大类：无源抑制方法和有源对抗方法。传统无源抑制的方法旨在识别或消除雷达被干扰后的干扰信号。有源对抗的方法要求雷达提前采取措施来对抗可能受到的威胁，有源对抗的方法包括但并不限于频率捷变、脉冲重复间隔捷变、脉冲分集等。其中发射波形中的频率捷变被认为是对抗主瓣干扰的有效方法，频率捷变雷达可以随机且主动地改变其载波频率，使得干扰机难以拦截和干扰。
[0004]然而，由于干扰机内置干扰样式丰富且快速变化的特点，传统雷达无法智能感知态势，导致抗干扰效果不够理想。认知雷达在智能态势感知的基础上，仍无法对抗干扰的波形样式进行快速有效的判断决策，严重影响了抗干扰效果。

技术实现思路

[0005]本专利技术解决了智能认知雷达在干扰场景与样式复杂多变的情况下，抗干扰波形无法快速有效的判断决策的问题。
[0006]本专利技术提供一种基于深度强化学习的雷达波形博弈系统构建方法，所述方法包括：
[0007]雷达与干扰环境进行数据交互，获取仿真干扰回波波形；
[0008]根据所述当前时刻回波波形与前一时刻的回波波形，计算获得抗干扰行为...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述方法包括：雷达与干扰环境进行数据交互，获取仿真干扰回波波形；根据所述当前时刻回波波形与前一时刻的回波波形，计算获得抗干扰行为的奖励值，并将所述交互式数据及抗干扰行为的奖励值存入记忆库；离线训练模块采用所述记忆库储存的数据进行神经网络的训练与更新,获得预训练模型；在线学习模块加载离线训练模块的预训练模型，进行雷达的在线学习，获得深度强化学习的雷达波形博弈系统。2.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述雷达与干扰环境进行数据交互，包括：雷达在每个脉冲时刻感知干扰机的动作；干扰机的动作采用窄带瞄准压制干扰；雷达采用强化学习算法对抗干扰机的主瓣抑制干扰。3.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述在线学习模块包括探测波形单元、强化学习算法单元和奖励函数单元；所述探测波形单元用于干扰机选择不同的发射探测波形与不同的干扰方式；所述强化学习算法单元用于根据发射探测波形和干扰方式的选择SAC、DDPG、TD3和PPO四种深度强化学习算法；所述奖励函数单元用于评估智能雷达抗干扰波形选择的有效性。4.根据权利要求1所述的一种基于深度强化学习的雷达波形博弈系统构建方法，其特征在于，所述计算获得抗干扰行为的奖励值包括：回波信干比和目标探测概率。5.一种基于深度强化学习的雷达波形博弈系统构建装置，其特征在于，所述装置包括：仿真干扰波形获取单元，用于雷达与干扰环境进行数据交互，获取仿真干扰回波波形；根据所述当前时刻回波波形与前一时刻的回波波形，计算获得抗干扰行为的奖励值，并将所述交互式数据及...

【专利技术属性】
技术研发人员：刘环宇，解烽，李君宝，杨忠琳，王晓航，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人