System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于SAC的间歇采样转发干扰方法、装置和计算机设备制造方法及图纸_技高网

基于SAC的间歇采样转发干扰方法、装置和计算机设备制造方法及图纸

技术编号:41282989 阅读:6 留言:0更新日期:2024-05-11 09:32
本申请涉及一种基于SAC的间歇采样转发干扰方法、装置和计算机设备。所述方法包括:将干扰机对雷达执行突防任务过程建模为马尔可夫模型;构建SAC模型;从回放缓冲区中采样经验数据,利用经验数据训练SAC模型中的Q网络,目标Q网络生成目标Q值辅助Q网络进行更新,得到训练好的Q网络,根据当前策略网络得到经验数据中同一状态下的新动作;将经验数据中的状态和新动作对应的新状态动作对输入训练好的Q网络,得到对应的Q估计值,优化Q估计值,根据优化后的Q估计值引导策略网络优化,得到训练好的策略网络;根据训练好的策略网络进行干扰决策。采用本方法能够在降低雷达探测性能的同时获得功率高效的干扰策略。

【技术实现步骤摘要】

本申请涉及间歇采样转发干扰,特别是涉及一种基于sac的间歇采样转发干扰方法、装置和计算机设备。


技术介绍

1、间歇采样转发干扰(isrj)是一种广泛应用于机载自卫干扰设备的电子对抗手段。通过短时的采样-转发技术,产生离散的窄脉冲串,实现超前干扰,掩护载体突防。此类干扰能形成多个假目标,且假目标的幅度大小、位置分布等特征与干扰参数的设置十分相关。

2、间歇采样转发干扰的干扰性能极大地依赖于采样周期、采样占空比及干扰功率等参数的设置。为了对雷达产生较好的压制效果,需要合理设置间歇采样的干扰参数。同时考虑到机载自卫干扰设备能量受限,因而还需要选择合适的干扰功率,获得功率高效的干扰策略。面对非合作、动态对抗场景,现有的严重依赖于先验知识库和准确数学模型的传统干扰决策方法很容易失效,难以实现智能化、自适应的干扰效果。同时,由于参数空间的多维连续性,这些方法收敛缓慢。

3、近年来,许多文献都提到了间歇采样转发干扰。然而,关于间歇采样转发干扰的研究主要集中于不同间歇采样转发干扰信号类型下假目标的产生、分布等特征分析及干扰系统实现,关于其对雷达探测的影响研究相对较少,也缺少对雷达压制干扰效果的定量分析。

4、在整个动态突防过程中,随着干扰距离的变化,原先设定的最小有效干扰功率、干扰参数可能不会达到令人满意的干扰效果,需要实时调整干扰参数。因而在突防过程中的不同距离上都有一个干扰决策问题,且每一次的干扰决策都影响到后续环境状态如非友方雷达工作状态、干扰距离等的变化,这样各距离上的干扰决策就构成了一个决策序列。</p>

5、然而传统的干扰决策分配算法往往只适用于解决小规模问题,针对干扰功率、干扰参数等连续变量的组合优化问题,算法收敛速度会极大降低。同样地,基于博弈论的干扰决策方法在这种对抗环境下构建盈利矩阵较为困难。其次,考虑到敌我双方为非合作关系,干扰方缺少环境模型先验信息,也即非友方雷达相关先验信息,如雷达工作状态转移概率、雷达系统内部参数、性能指标等信息。因而,严重依赖先验知识库的模板匹配类干扰决策方法以及严格依赖准确数学模型、需要环境模型先验信息的传统优化方法很容易失效。

6、近年来,强化学习结合深度神经网络,出现了许多先进的深度强化学习算法,如深度q网络(deep q-network,dqn)、信任区域策略优化(trust region policyoptimization,trpo)、近端策略优化(proximal policy optimization,ppo)等。这些深度rl算法在一系列序贯决策问题中取得了巨大的成功,如游戏、机器人、室内导航、红绿灯控制等。同时,强化学习在通信干扰和抗干扰方面的应用已经有了很多研究,这为雷达对抗提供了新的思路。与现有的干扰决策方法相比,强化学习方法更适合求解上述序贯决策问题。它是一种机器学习技术,特点是智能体通过与环境不断交互试错进行学习,依据环境反馈形成动作奖励机制,不断调整优化策略,理论上不需要过多的先验知识,不需要基于标签数据进行学习,对未知环境的适应能力很强;其次,该算法采用连续动作空间可实现对干扰功率、干扰参数更细粒度地控制。因此,强化学习算法在解决动态未知环境下的间歇采样转发干扰策略优化问题具有很大的潜力。

7、目前,利用rl方法设计雷达干扰策略有少部分的研究。其中大部分的学者将rl方法引入到雷达干扰决策中,使干扰系统能够通过自主学习确定不同雷达工作模式下的最佳干扰策略。但上述这些研究都是对不同雷达工作模式及对应干扰样式构建雷达状态转移图,侧重于雷达干扰的宏观层面建模,忽略了确定干扰样式下不同的参数设置会削弱干扰效果。在此基础上,pan等人考虑了干扰功率的选择,并基于深度rl算法求解干扰类型选择和干扰功率控制的联合优化问题。liu等人提出了基于双q-learning的自适应雷达干扰策略优化方法,针对多功能雷达建立一个两级干扰决策框架决定干扰样式和参数的选择。zhang等人提出了一种基于自适应启发式加速q学习算法的干扰决策方法,根据雷达威胁等级的变化自适应地调整干扰类型和干扰功率。然而,这些方法仅考虑非相参噪声压制干扰,未考虑到目前机载自卫干扰设备为获得信号处理增益,常采用间歇采样转发干扰等相干干扰手段,而此类干扰相应的干扰效果极大程度上依赖于干扰参数的设置。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于sac的间歇采样转发干扰方法、装置和计算机设备。

2、一种基于sac的间歇采样转发干扰方法,所述方法包括:

3、将干扰机对雷达执行突防任务过程建模为马尔可夫模型;所述马尔可夫模型的每一时间步包括当前状态、动作、状态转移概率和奖励值;所述状态包括当前时刻干扰机与雷达之间的距离;所述动作包括干扰机选择的干扰参数;所述干扰参数包括干扰功率、间歇采样周期和采样脉宽;所述状态转移概率包括雷达在干扰机采取干扰动作后,根据工作性能指标从当前状态转移到下一状态的概率;所述工作性能指标包括干扰是否有效;所述奖励值包括当前时刻合作场景下或非合作场景下对应的奖励函数值;

4、构建sac模型;所述sac模型包括q网络、目标q网络和策略网络;所述q网络包括第一q网络和第二q网络;目标q网络包括第一目标q网络和第二目标q网络;所述q网络的输出为第一q网络和第二q网络输出的q估计值中的较小值;在当前策略网络指导下,干扰机在突防任务过程中进行干扰决策,得到干扰机和雷达之间的交互数据,将交互数据作为经验数据放入回放缓冲区;所述经验数据包括当前状态、动作、奖励值以及下一状态;

5、从所述回放缓冲区中采样经验数据,利用经验数据训练q网络,目标q网络生成目标q值辅助q网络进行更新,得到训练好的q网络;

6、根据当前策略网络得到所述经验数据中同一状态下的新动作,根据所述经验数据中的状态和所述新动作得到新状态动作对,将新状态动作对输入训练好的q网络,得到对应的q估计值,根据所述经验数据中的原始状态动作对对应的干扰是否有效调整所述q估计值,得到优化后的q估计值,根据优化后的q估计值引导所述策略网络优化,得到训练好的策略网络;

7、根据所述训练好的策略网络辅助所述干扰机进行雷达突防任务过程中的干扰决策。

8、一种基于sac的间歇采样转发干扰装置,所述装置包括:

9、问题模型构建模块,用于将干扰机对雷达执行突防任务过程建模为马尔可夫模型;所述马尔可夫模型的每一时间步包括当前状态、动作、状态转移概率和奖励值;所述状态包括当前时刻干扰机与雷达之间的距离;所述动作包括干扰机选择的干扰参数;所述干扰参数包括干扰功率、间歇采样周期和采样脉宽;所述状态转移概率包括雷达在干扰机采取干扰动作后,根据工作性能指标从当前状态转移到下一状态的概率;所述工作性能指标包括干扰是否有效;所述奖励值包括当前时刻合作场景下或非合作场景下对应的奖励函数值;

10、求解模型构建模块,用于构建sac模型;所述sac模型包括q网络、目标q网络和策略网络;所述q网络包括第一本文档来自技高网...

【技术保护点】

1.一种基于SAC的间歇采样转发干扰方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据优化后的Q估计值引导所述策略网络优化,得到训练好的策略网络包括:

3.根据权利要求1所述的方法,其特征在于,根据所述经验数据中的原始状态动作对对应的干扰是否有效调整所述Q估计值,得到优化后的Q估计值包括:

4.根据权利要求3所述的方法,其特征在于,根据原始状态动作对和新状态动作对干扰功率使用率的差值和所述Q估计值得到优化后的Q估计值包括:

5.根据权利要求3所述的方法,其特征在于,若原始动作干扰失效,则根据新动作对应的干扰功率使用率和所述Q估计值得到优化后的Q估计值包括:

6.根据权利要求3所述的方法,其特征在于,判断新动作是否为次优动作的步骤,包括:

7.根据权利要求3或6所述的方法,其特征在于,所述方法还包括:

8.一种基于SAC的间歇采样转发干扰装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于sac的间歇采样转发干扰方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据优化后的q估计值引导所述策略网络优化,得到训练好的策略网络包括:

3.根据权利要求1所述的方法,其特征在于,根据所述经验数据中的原始状态动作对对应的干扰是否有效调整所述q估计值,得到优化后的q估计值包括:

4.根据权利要求3所述的方法,其特征在于,根据原始状态动作对和新状态动作对干扰功率使用率的差值和所述q估计值得到优化后的q估计值包括:

5.根据权利要求3所述的方法,其特征在于,若原始动作干扰失效,则根据新动作对应的干扰功率使用率和所...

【专利技术属性】
技术研发人员:刘天鹏谭嘉琦姜卫东户盼鹤刘振刘永祥
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1