一种基于深度强化学习的MIMO雷达功率分配设计方法技术

技术编号：29670380 阅读：8 留言：0更新日期：2021-08-13 21:51

本发明专利技术提供一种基于深度强化学习的MIMO雷达功率分配设计方法，包括如下步骤：S1，设置一个固定收发天线位置的MIMO雷达系统对指定目标区域进行监视；S2，通过深度强化学习方法对所述MIMO雷达系统进行功率分配控制。本发明专利技术使用深度强化学习方法，实现MIMO雷达系统中各发射天线功率分配策略的自主学习，完成训练学习后能够快速完成功率分配。在高维空间复杂场景中，能够快速优化雷达功率资源，满足监视任务指标。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的MIMO雷达功率分配设计方法
本专利技术涉及MIMO雷达功率分配
，具体而言，涉及一种基于深度强化学习的MIMO雷达功率分配设计方法。
技术介绍
对于没有足够燃料补充的分布式多雷达系统，例如车载、机载和天基雷达等移动雷达站，要求在有限的能量资源下进行长时间的工作。通过优化雷达功率分配策略可以在功率一定的条件下提升性能。Godrich等人2011年在IEEETransactiononSignalProcessing上发表的论文《Powerallocationstrategiesfortargetlocalizationindistributedmultiple-radararchitecture》中提出了基于凸松弛和区域分解方法的功率分配方案，证明了平均功率分配不一定是最佳选择。Ghassemi等人2011年在IEEETransactiononAerospaceElectronicSystems上发表的论文《Separableapproximationforsolvingthesensorsubsetselectionproblem》中提出了一种基于沙普利值的迭代功率优化分配策略，有效提高资源的使用效率，获得更高的目标定位精度。Gharehshiran等人2010年在IEEETransactiononSignalProcessing上发表的论文《CoalitionFormationforBearings-OnlyLocalizationinSensorNetworks-ACooper...

【技术保护点】
1.一种基于深度强化学习的MIMO雷达功率分配设计方法，其特征在于，包括如下步骤：/nS1，设置一个固定收发天线位置的MIMO雷达系统对指定目标区域进行监视；/nS2，通过深度强化学习方法对所述MIMO雷达系统进行功率分配控制。/n

【技术特征摘要】
1.一种基于深度强化学习的MIMO雷达功率分配设计方法，其特征在于，包括如下步骤：
S1，设置一个固定收发天线位置的MIMO雷达系统对指定目标区域进行监视；
S2，通过深度强化学习方法对所述MIMO雷达系统进行功率分配控制。

2.根据权利要求1所述的基于深度强化学习的MIMO雷达功率分配设计方法，其特征在于，步骤S2包括如下子步骤：
S21，将监视的目标区域进行离散化处理，获得该目标区域的栅格模型，分成L个栅格；将所述MIMO雷达系统的总功率P离散化为N份；发射天线功率Pi，i＝1,2,…,N，N表示发射天线数量；每个份发射天线功率最大值为B；
S22，初始化容量为M的储存空间D；
S23，初始化两个神经网络，分别为当前状态-动作网络Q和目标状态-动作网络权重分别为w和且
S24，对于1到K次功率分配任务，进行步骤S241～S242的循环：
S241，初始化功率分配状态s0＝[p1,p2,p3.p4]，表示T1、T2、T3、T4四个发射天线功率初始分配情况；
并初始化动作空间A＝[a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13]；
S242，对于时间步1到T，进行步骤S2421～S2425的循环：
S2421，根据ε-greedy策略，以概率ε选择一个随机动作at∈A；以概率1-ε选择当前状态-动作网络Q所对应的动作执行动作at，获得回报值rt以及下一时刻状态st+1；
S2422，将状态转移样本(st,at,rt,st+1)保持在存储空间D中，如果存储空间已满，根据先进先出原则删除状态转移样本；
S2423，从存储空间D中均匀随机采用一批状态转移样本(st,at,rt,st+1)，判断该状态转移样本是否是一个功率分配任务的终止状态，若是终止状态，则时间差分目标为yt＝rt，否则时间差分目标为
S2424，根据梯度下降...

【专利技术属性】
技术研发人员：余晨，李昊，杨益川，
申请(专利权)人：中国电子科技集团公司第二十九研究所，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人