基于近端策略优化算法的多阵面雷达搜索资源优化方法技术

技术编号：40961012 阅读：4 留言：0更新日期：2024-04-18 20:39

本发明专利技术公开了一种基于近端策略优化算法的多阵面雷达搜索资源优化方法，解决了现有技术中多阵面场景下面向集群目标的雷达搜索资源分配问题；该方法包括：确定初始化参数，其中初始化参数包括：雷达参数、目标参数和强化学习参数；根据初始化参数建立基于目标最大期望发现距离的多阵面雷达搜索资源优化模型；利用多阵面雷达搜索资源优化模型，构建强化学习训练环境，得到训练好的策略网络；将双重观测信息输入至训练好的策略网络中，输出阵面权值和子空域搜索资源分配系数，得到多阵面雷达搜索的资源分配；该方法实现了在大规模集群目标环境下能够得到优于传统数值优化方法的数值解，具备较好的鲁棒性和收敛性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及雷达资源分配调度，尤其涉及一种基于近端策略优化算法的多阵面雷达搜索资源优化方法。

技术介绍

1、搜索资源分配策略在分布式mimo(multiple-input multiple-output)雷达系统的多功能性能中具有重要作用。雷达执行的不同任务会对同一资源产生竞争。目前，针对无预警信息条件下的雷达搜索资源管理优化主要包括空域划分及雷达搜索相关参数优化。论文《相控阵雷达最优搜索参数设计研究》(张华睿，杨宏文，郁文贤.相控阵雷达最优搜索参数设计研究[j].兵工学报，2012，33(09):1062-1065.)分析了虚警引起的时间消耗对搜索性能的影响，将虚警概率、搜索波束驻留时间和搜索帧周期3个参数同时纳入优化模型，给出了相应的最优搜索参数。论文《反导任务下一种相控阵雷达搜索参数优化方法》(吴其华，刘进，艾小锋等.反导任务下一种相控阵雷达搜索参数优化方法[j].现代防御技术，2016，44(02):165-170.)基于swerling iii模型，关注了多空域情况下最优搜索资源分配的问题，并通过调整雷达波束驻留时间，针对最大目标期望发现距离对雷达搜索资源进行优化。专利《基于双目标混合粒子群优化算法的雷达资源分配方法》(申请公布号cn116542165a)基于双目标混合粒子群优化算法的雷达资源分配方法，提高了雷达资源分配效率和检测跟踪精度。随着雷达技术的不断发展，采用新体制对雷达各系统也提出了新的研制需求，其中数字阵控制系统最主要的要求是能够对每个阵面独立控制，可以让多个阵面独立工作或者某几个阵面同时工作，实现灵活的

2、然而，采用多阵面雷达搜索资源最优化模型求解雷达各阵面搜索参数较为困难，需要引入数值求解方法且效率较低。数值求解方法的基本思路是将连续的求解区域划分为一个个小区域，并在这些小区域中插入有限个离散的数据点，通过计算这些节点上的函数值来近似代替连续函数值。传统基于数值优化的参数求解方法需要进行大量数值运算浪费计算资源，随着对机载雷达数据信息实时性要求提高，因此需要引入智能化控制算法以提高雷达搜索参数计算效率。针对上述问题，论文《radar waveform design based onmulti-agent reinforcement learning》(yang q，han z，wang h，et al.radar waveformdesign based on multi-agent reinforcement learning[j].international journalof pattern recognition and artificial intelligence，2021.)通过将雷达目标参数估计问题建模为多智能体强化学习框架，提出了一种基于强化学习的波形设计算法。论文《airborne radar anti-jamming waveform design based on deep reinforcementlearning》(zheng，z.；li，w.；zou k.airborne radar anti-jamming waveform designbased on deep reinforcement learning.sensors 2022，22.)利用马尔可夫决策过程(mdp)描述机载雷达复杂的工作环境，提出了一种在杂波和干扰条件下基于深度强化学习(drl)算法的机载雷达波形设计方法。强化学习(rl)作为一种在线实时学习的动态决策算法广泛应用于信息对抗领域。无模型的强化学习算法不需要建立环境模型，只需要对轨迹采样，即可学习出给定策略的价值函数和最优策略。在雷达搜索资源分配场景中，不需要求得目标函数的精确解析解，只要在环境中不断学习迭代，即可给定最优资源分配策略。

技术实现思路

1、本专利技术通过提供一种于近端策略优化算法的多阵面雷达搜索资源优化方法，解决了现有技术中多阵面场景下面向集群目标的雷达搜索资源分配问题，实现了在大规模集群目标环境下能够得到优于传统数值优化方法的数值解，具备较好的鲁棒性和收敛性。

2、第一方面，本专利技术提供了一种基于近端策略优化算法的多阵面雷达搜索资源优化方法，该方法包括：

3、确定初始化参数，其中所述初始化参数包括：雷达参数、目标参数和强化学习参数；

4、根据所述初始化参数建立基于目标最大期望发现距离的多阵面雷达搜索资源优化模型；其中，所述多阵面雷达搜索资源优化模型根据雷达模型、目标威胁度模型和阵面子空域威胁度模型生成；

5、利用所述多阵面雷达搜索资源优化模型，构建强化学习训练环境，得到训练好的策略网络；

6、将双重观测信息输入至训练好的策略网络中，输出阵面权值和子空域搜索资源分配系数，得到多阵面雷达搜索的资源分配。

7、结合第一方面，在一种可能的实现方式中，所述雷达模型，具体表示为：

8、

9、其中，pav表示平均发射功率，pav＝pt×pwm；τs表示搜索波束驻留时间；gt表示发射天线增益；gr表示接收天线增益；λradar表示雷达波长；σ表示目标rcs；k表示玻尔兹曼常数；t0表示接收机噪声温度，常温下为290k；fn表示接收机噪声系数；l表示雷达系统损耗；snr表示回波信噪比；r表示雷达探测距离；pt表示最大发射功率；pwm表示占空比。

10、结合第一方面，在一种可能的实现方式中，所述目标威胁度模型的具体建立过程，具体包括：

11、设定每个目标的目标类型威胁度系数、距离威胁度系数、速度威胁度系数；

12、对所述目标类型威胁度系数、所述距离威胁度系数和所述速度威胁度系数，进行归一化得到所述目标威胁度模型。

13、结合第一方面，在一种可能的实现方式中，所述目标威胁度模型，具体表示为：

14、

15、其中，ttype(i)表示目标类型威胁度系数，td(i)表示距离威胁度系数；tv(i)表示速度威胁度系数；ωi′表示总威胁度系数；n表示异构飞行器集群目标数量。

16、结合第一方面，在一种可能的实现方式中，所述阵面子空域威胁度模型，具体表示为：

17、

18、其中，γij表示各子空域对应归一化威胁度系数，qij表示各子空域包含的目标集合，pi表示各阵面对应所有子空域包含的所有目标集合；n表示异构飞行器集群目标数量；si表示子空域；q表示某个子空域中的目标；p表示所有子空域中的目标。

19、结合第一方面，在一种可能的实现方式中，所述多阵面雷达搜索资源优化模型，具体表示为：

20、

21、

22、其中，n表示雷达阵面数；αi表示雷达各个阵面对应权值；ω0i表示各阵面雷达系统常数，且srij表示各阵面雷达对应子空域本文档来自技高网...

【技术保护点】

1.一种基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，包括：

2.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述雷达模型，具体表示为：

3.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述目标威胁度模型的具体建立过程，具体包括：

4.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述目标威胁度模型，具体表示为：

5.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述阵面子空域威胁度模型，具体表示为：

6.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述多阵面雷达搜索资源优化模型，具体表示为：

7.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述利用所述多阵面雷达搜索资源优化模型，构建强化学习训练环境，得到训练好的策略网络，具体包括：

8.根据权利要求7所述的基

9.根据权利要求7所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，在训练的策略网络之前，还包括：

10.根据权利要求9所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述基于近端策略优化对所述机载多阵面雷达搜索资源的过程进行优化，得到训练好的策略网络和训练好的价值网络，具体包括：

...

【技术特征摘要】

1.一种基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，包括：

2.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述雷达模型，具体表示为：

3.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述目标威胁度模型的具体建立过程，具体包括：

4.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述目标威胁度模型，具体表示为：

5.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述阵面子空域威胁度模型，具体表示为：

6.根据权利要求1所述的基于近端策略优化算法的多阵面雷达搜索资源优化方法，其特征在于，所述多阵面雷达搜...

【专利技术属性】
技术研发人员：李枭扬，王腾，张海若，杨振，周颖，周德云，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人