一种基于深度强化学习的波形自适应遴选方法技术

技术编号:36219782 阅读:11 留言:0更新日期:2023-01-04 12:17
本发明专利技术公开了一种基于深度强化学习的波形自适应遴选方法,包括:首先通过构建离散系统状态空间模型,对仿真场景进行建模;再通过最小化目标参数估计的克拉美罗下界构建目标熵状态,通过前后时刻的真实熵状态构建波形参数选择动作的真实熵奖励;再利用容积卡尔曼滤波器对当前时刻不同波形参数选择动作的下一时刻目标状态进行预测;再根据预测的熵状态构建预测熵奖励组成前馈循环通路;最后针对多节点场景设计下动作奖励函数,利用DQN网络对不同状态下不同动作的奖励期望进行价值逼近,得到最终的波形参数选择动作;本发明专利技术能够在动态环境中快速的适应环境学习动作选择策略,根据环境的反馈快速自适应的选择发射波形参数动作,鲁棒性强。鲁棒性强。鲁棒性强。

【技术实现步骤摘要】
一种基于深度强化学习的波形自适应遴选方法


[0001]本专利技术属于雷达波形遴选
,涉及一种雷达波形自适应选择方法,更进一步涉及一种基于深度强化学习的波形自适应遴选方法。

技术介绍

[0002]本节中的陈述仅提供与本公开相关的背景信息,并且可能不构成现有技术。
[0003]雷达发射波形参数自适应选择是雷达波形遴选领域重要的研究内容之一,广泛应用于军事侦察等领域;雷达波形参数自适应遴选的目的在于使雷达能够在复杂、竞争、动态的雷达环境中执行典型的雷达任务,满足现代雷达高精度检测、跟踪和监视的实际应用需求,使得雷达具有自适应的能力。
[0004]认知雷达系统是一个由认知控制器、认知感知器和环境组成的闭环回路;其中,认知感知器将接收到的环境信息反馈给认知控制器,认知控制器根据反馈信息对传输的波形参数进行遴选,从而不断提高系统的估计和检测性能;因此,波形遴选是认知雷达系统中最主要的问题。
[0005]传统的雷达波形遴选方法有基于预先设定应用场景构建少量波形库固定雷达发射波形参数的方法,基于遗传算法、神经网络等学习雷达发射波形参数与跟踪定位精度之间的关系;然而,固定雷达发射波形参数的方法虽然针对应用场景给定了少量波形库,但是在复杂干扰条件下雷达面临应用受限的问题,而对于一个未知的雷达任务来说,基于准则函数的波形参数捷变算法需要在波形库中进行搜索,计算复杂度比较大;基于神经网络进行波形选择的方法,需要获取足够的有效训练样本,对于未知的雷达任务也是比较困难的;基于遗传算法、神经网络算法获取一组面临新的应用场景存在着适应性差,计算复杂度大,处理耗时长等问题;因此近年来,雷达波形遴选尝试采用基于强化学习的方法;强化学习可以在动态复杂的环境中,通过与环境交互,利用环境的反馈信息,逐渐的适应环境,在进行波形选择时,可以根据将环境的反馈信息作为强化学习的输入,并对反馈做出决策,选择相应的发射波形参数。
[0006]深度强化学习对雷达波形选择问题上,通过对雷达仿真环境的建模,自适应的对雷达波形库中波形的选择,性能表现超过传统算法;其中DQN(Deep Q

learning Network)作为一种深度强化学习网络的代表通过对动作选择与系统在该动作前后状态及动作对应的奖励进行学习,期望拟合一种在当前状态下动作与奖励的对应关系;但是雷达定位跟踪场景因为雷达观测的马尔可夫性,干扰噪声等问题,导致直接使用DQN的方法存在离散空间的价值网络波动大,状态估计不稳定的问题。

技术实现思路

[0007]本专利技术的目的在于:针对上述问题,提供了一种基于深度强化学习的波形自适应遴选方法,使得雷达系统具备环境感知能力,能够自适应、动态的稳定的调整雷达波形,实现资源合理分配,从而解决了上述问题。
[0008]本专利技术的技术方案如下:
[0009]一种基于深度强化学习的波形自适应遴选方法,包括:
[0010]步骤S1:通过构建离散系统状态空间模型,对仿真场景进行建模,基于该仿真场景,初始化离散系统状态空间模型,并对DQN网络的权重进行随机初始化;
[0011]步骤S2:通过最小化目标参数估计的克拉美罗下界构建目标熵状态,通过前后时刻的真实熵状态构建波形参数选择动作的真实熵奖励;
[0012]步骤S3:利用容积卡尔曼滤波器对当前时刻不同波形参数选择动作的下一时刻目标状态进行预测;
[0013]步骤S4:根据预测的熵状态构建预测熵奖励组成前馈循环通路;
[0014]步骤S5:针对多节点场景设计下动作奖励函数,利用DQN网络对不同状态下不同动作的奖励期望进行价值逼近,得到最终的波形参数选择动作。
[0015]进一步地,所述步骤S1,包括:
[0016]离散系统状态空间模型定义如下:
[0017][0018]其中:
[0019]f(.)是向量转换函数;
[0020]h(.)是另一个向量转换函数将目标从状态空间映射到观测空间;
[0021]x
k
表示系统在k时刻的状态;
[0022]z
k
表示在k时刻的观测值;
[0023]v
k
表示一个附加的处理噪声作为更新状态的驱动力;
[0024]w
k
是附加的观测噪声;
[0025]系统方程定义如下:
[0026]f(x
k
)=[x
k
[0]‑
x
k
[1]*dt

0.5*x
k
[2]*dt*dt,x
k
[1]‑
x
k
[2]*dt,x[2]][0027]其中;
[0028]x
k
[0]为雷达与目标的相对距离
[0029]x
k
[1]目标的速度;
[0030]x
k
[2]为目标加速度;
[0031]系统协方差噪声定义如下:
[0032][0033]其中:
[0034]q1=0.01;q2=0.01;δ=1;
[0035]观测噪声协方差的克拉美罗下界定义如下:
[0036][0037]其中:
[0038]f
c
=10.4GHz;
[0039]η为信噪比,
[0040]r0=50km;
[0041]c=3e8。
[0042]进一步地,所述步骤S2,包括:
[0043]步骤S21:认知感知器从环境获得当前k时刻的观测向量;
[0044]步骤S22:将当前K时刻观测噪声协方差的克拉美罗下界作为容积卡尔曼滤波器输入,得到下一时刻目标状态的估计误差协方差矩阵预测值P
k|k
‑1和估计误差协方差矩阵P
k|k

[0045]步骤S23:利用估计误差协方差矩阵预测值P
k|k
‑1及估计误差协方差矩阵P
k|k
对目标状态进行后验概率估计,得到目标参数估计的预测熵状态和目标参数估计的真实熵状态;
[0046]步骤S24:真实熵状态H
k|k
反馈给认知控制器,构成反馈信息。
[0047]步骤S25:认知控制器接收认知感知器反馈的真实熵状态信息;
[0048]步骤S26:从前后时刻熵状态信息获得真实熵奖励;
[0049]步骤S27:储存一组目标状态、波形参数选择动作、获得的真实熵奖励;
[0050]步骤S28:选择发射波形参数。
[0051]进一步地,所述步骤S23,包括:
[0052]熵状态是衡量后验概率估计分布p(x
k
|z
k
)的不确定性度量,采用香农熵对目标状态进行度量,其形式为:
[0053]H
k|k
=det(P
k|k
)
[0054]通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的波形自适应遴选方法,其特征在于,包括:步骤S1:通过构建离散系统状态空间模型,对仿真场景进行建模,基于该仿真场景,初始化离散系统状态空间模型,并对DQN网络的权重进行随机初始化;步骤S2:通过最小化目标参数估计的克拉美罗下界构建目标熵状态,通过前后时刻的真实熵状态构建波形参数选择动作的真实熵奖励;步骤S3:利用容积卡尔曼滤波器对当前时刻不同波形参数选择动作的下一时刻目标状态进行预测;步骤S4:根据预测的熵状态构建预测熵奖励组成前馈循环通路;步骤S5:针对多节点场景设计下动作奖励函数,利用DQN网络对不同状态下不同动作的奖励期望进行价值逼近,得到最终的波形参数选择动作。2.根据权利要求1所述的一种基于深度强化学习的波形自适应遴选方法,其特征在于,所述步骤S1,包括:离散系统状态空间模型定义如下:其中:f(.)是向量转换函数;h(.)是另一个向量转换函数将目标从状态空间映射到观测空间;x
k
表示系统在k时刻的状态;z
k
表示在k时刻的观测值;v
k
表示一个附加的处理噪声作为更新状态的驱动力;w
k
是附加的观测噪声;系统方程定义如下:f(x
k
)=[x
k
[0]

x
k
[1]*dt

0.5*x
k
[2]*dt*dt,x
k
[1]

x
k
[2]*dt,x[2]]其中;x
k
[0]为雷达与目标的相对距离x
k
[1]目标的速度;x
k
[2]为目标加速度;系统协方差噪声定义如下:
其中:q1=0.01;q2=0.01;δ=1;观测噪声协方差的克拉美罗下界定义如下:其中:f
c
=10.4GHz;η为信噪比,r0=50km;c=3e8。3.根据权利要求2所述的一种基于深度强化学习的波形自适应遴选方法,其特征在于,所述步骤S2,包括:步骤S21:认知感知器从环境获得当前k时刻的观测向量;步骤S22:将当前K时刻观测噪声协方差的克拉美罗下界作为容积卡尔曼滤波器输入,得到下一时刻目标状态的估计误差协方差矩阵预测值P
k|k
‑1和估计误差协方差矩阵P
k|k
;步骤S23:利用估计误差协方差矩阵预测值P
k|k
‑1及估计误差协方差矩阵P
k|k
对目标状态进行后验概率估计,得到目标参数估计的预测熵状态和目标参数估计的真实熵状态;步骤S24:真实熵状态H
k|k
反馈给认知控制器,构成反馈信息;步骤S25:认知控制器接收认知感知器反馈的真实熵状态信息;步骤S26:从前后时刻熵状态信息获得真实熵奖励;步骤S27:储存一组目标状态、波形参数选择动作、获得的真实熵奖励;步骤S28:选择发射波形参数。4.根据权利要求3所述的一种基于深度强化学习的波形自适应遴选方法,其特征在于,所述步骤S23,包括:熵状态是衡量后验概率估计分布p(x
k
|z
k
)的不确定性度量,采用香农熵对目标状态进行度量,其形式为:H
k|k
=det(P
k|k
)
通过将目标动作作为...

【专利技术属性】
技术研发人员:张向荣阮恒宇朱进陶海红郭晶晶张天扬张超曹雁军韩丽
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1