一种基于深度强化学习的MIMO雷达功率分配设计方法技术

技术编号:29670380 阅读:8 留言:0更新日期:2021-08-13 21:51
本发明专利技术提供一种基于深度强化学习的MIMO雷达功率分配设计方法,包括如下步骤:S1,设置一个固定收发天线位置的MIMO雷达系统对指定目标区域进行监视;S2,通过深度强化学习方法对所述MIMO雷达系统进行功率分配控制。本发明专利技术使用深度强化学习方法,实现MIMO雷达系统中各发射天线功率分配策略的自主学习,完成训练学习后能够快速完成功率分配。在高维空间复杂场景中,能够快速优化雷达功率资源,满足监视任务指标。

【技术实现步骤摘要】
一种基于深度强化学习的MIMO雷达功率分配设计方法
本专利技术涉及MIMO雷达功率分配
,具体而言,涉及一种基于深度强化学习的MIMO雷达功率分配设计方法。
技术介绍
对于没有足够燃料补充的分布式多雷达系统,例如车载、机载和天基雷达等移动雷达站,要求在有限的能量资源下进行长时间的工作。通过优化雷达功率分配策略可以在功率一定的条件下提升性能。Godrich等人2011年在IEEETransactiononSignalProcessing上发表的论文《Powerallocationstrategiesfortargetlocalizationindistributedmultiple-radararchitecture》中提出了基于凸松弛和区域分解方法的功率分配方案,证明了平均功率分配不一定是最佳选择。Ghassemi等人2011年在IEEETransactiononAerospaceElectronicSystems上发表的论文《Separableapproximationforsolvingthesensorsubsetselectionproblem》中提出了一种基于沙普利值的迭代功率优化分配策略,有效提高资源的使用效率,获得更高的目标定位精度。Gharehshiran等人2010年在IEEETransactiononSignalProcessing上发表的论文《CoalitionFormationforBearings-OnlyLocalizationinSensorNetworks-ACooperativeGameApproach》中针对基于方位观测的目标定位问题,提出了改进的合作博弈算法,使得分配到各节点的平均休眠时间最大。
技术实现思路
本专利技术旨在提供一种基于深度强化学习的MIMO雷达功率分配设计方法,以在指定监视区域情况下,对多个收发天线分置组成的MIMO雷达定位系统,优化发射天线功率分配、提升监视性能。本专利技术提供的一种基于深度强化学习的MIMO雷达功率分配设计方法,包括如下步骤:S1,设置一个固定收发天线位置的MIMO雷达系统对指定目标区域进行监视;S2,通过深度强化学习方法对所述MIMO雷达系统进行功率分配控制。进一步的,步骤S2包括如下子步骤:S21,将监视的目标区域进行离散化处理,获得该目标区域的栅格模型,分成L个栅格;将所述MIMO雷达系统的总功率P离散化为N份;发射天线功率Pi,i=1,2,…,N,N表示发射天线数量;每个份发射天线功率最大值为B;S22,初始化容量为M的储存空间D;S23,初始化两个神经网络,分别为当前状态-动作网络Q和目标状态-动作网络权重分别为w和且S24,对于1到K次功率分配任务,进行步骤S241~S242的循环:S241,初始化功率分配状态s0=[p1,p2,p3.p4],表示T1、T2、T3、T4四个发射天线功率初始分配情况;并初始化动作空间A=[a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13];S242,对于时间步1到T,进行步骤S2421~S2425的循环:S2421,根据ε-greedy策略,以概率ε选择一个随机动作at∈A;以概率1-ε选择当前状态-动作网络Q所对应的动作执行动作at,获得回报值rt以及下一时刻状态st+1;S2422,将状态转移样本(st,at,rt,st+1)保持在存储空间D中,如果存储空间已满,根据先进先出原则删除状态转移样本;S2423,从存储空间D中均匀随机采用一批状态转移样本(st,at,rt,st+1),判断该状态转移样本是否是一个功率分配任务的终止状态,若是终止状态,则时间差分目标为yt=rt,否则时间差分目标为S2424,根据梯度下降算法更新当前状态-动作网络Q的权重w;S2425,每间隔C时间步更新一次目标状态-动作网络的权重:S243,当更新次数满足预设阈值时,停止训练并保存训练完成的目标状态-动作网络S25,利用训练完成的目标状态-动作网络对所述MIMO雷达系统进行功率分配控制。进一步的,初始化的所述功率分配状态s0=[p1,p2,p3.p4]中,进一步的,步骤S2421中,如果pi<B,回报值rt为F(st)-F(st-1),否则rt=-10;其中,φl(st)值作为目标区域的栅格模型中第l个栅格的监视性能指标函数。进一步的,所述目标区域的栅格模型中第l个栅格的监视性能指标函数φl(st)与信噪比的关系如下:其中,D0代表满足设计探测性能的探测因子;σi,j是针对第i个发射天线和第j个接收天线的目标RCS,σi,i是针对第i个发射天线的目标RCS;Rti是从第i个发射天线到第k个距离分辨单元的的欧几里得距离;Rrj是从第j个接收天线到第k个距离分辨单元的欧几里得距离;Rmax是MIMO雷达系统的最大探测距离。进一步的,步骤S2424中根据梯度下降算法更新当前状态-动作网络Q的权重的公式为:进一步的,初始化动作空间A=[a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13]具体如下:综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术使用深度强化学习方法,实现MIMO雷达系统中各发射天线功率分配策略的自主学习,完成训练学习后能够快速完成功率分配。在高维空间复杂场景中,能够快速优化雷达功率资源,满足监视任务指标。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例的基于深度强化学习的MIMO雷达功率分配设计方法的原理图。图2为本专利技术实施例的通过深度强化学习方法对所述MIMO雷达系统进行功率分配控制的算法流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例如图1所示,本实施例提出一种基于深度强化学习的MIMO雷达功率分配设计方法,包括如下步骤:S1,设置一个固定收发天线位置的MIMO雷达系统对指定目标区域(24kmX24km)进行本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的MIMO雷达功率分配设计方法,其特征在于,包括如下步骤:/nS1,设置一个固定收发天线位置的MIMO雷达系统对指定目标区域进行监视;/nS2,通过深度强化学习方法对所述MIMO雷达系统进行功率分配控制。/n

【技术特征摘要】
1.一种基于深度强化学习的MIMO雷达功率分配设计方法,其特征在于,包括如下步骤:
S1,设置一个固定收发天线位置的MIMO雷达系统对指定目标区域进行监视;
S2,通过深度强化学习方法对所述MIMO雷达系统进行功率分配控制。


2.根据权利要求1所述的基于深度强化学习的MIMO雷达功率分配设计方法,其特征在于,步骤S2包括如下子步骤:
S21,将监视的目标区域进行离散化处理,获得该目标区域的栅格模型,分成L个栅格;将所述MIMO雷达系统的总功率P离散化为N份;发射天线功率Pi,i=1,2,…,N,N表示发射天线数量;每个份发射天线功率最大值为B;
S22,初始化容量为M的储存空间D;
S23,初始化两个神经网络,分别为当前状态-动作网络Q和目标状态-动作网络权重分别为w和且
S24,对于1到K次功率分配任务,进行步骤S241~S242的循环:
S241,初始化功率分配状态s0=[p1,p2,p3.p4],表示T1、T2、T3、T4四个发射天线功率初始分配情况;
并初始化动作空间A=[a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,a13];
S242,对于时间步1到T,进行步骤S2421~S2425的循环:
S2421,根据ε-greedy策略,以概率ε选择一个随机动作at∈A;以概率1-ε选择当前状态-动作网络Q所对应的动作执行动作at,获得回报值rt以及下一时刻状态st+1;
S2422,将状态转移样本(st,at,rt,st+1)保持在存储空间D中,如果存储空间已满,根据先进先出原则删除状态转移样本;
S2423,从存储空间D中均匀随机采用一批状态转移样本(st,at,rt,st+1),判断该状态转移样本是否是一个功率分配任务的终止状态,若是终止状态,则时间差分目标为yt=rt,否则时间差分目标为
S2424,根据梯度下降...

【专利技术属性】
技术研发人员:余晨李昊杨益川
申请(专利权)人:中国电子科技集团公司第二十九研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1