System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于策略学习的认知雷达动作预测方法技术_技高网

一种基于策略学习的认知雷达动作预测方法技术

技术编号:41396272 阅读:15 留言:0更新日期:2024-05-20 19:20
本发明专利技术公开了一种认知雷达动作预测方法,可以通过认知雷达动作状态序列挖掘其行为策略,然后根据其策略预测其动作;结合条件深度动态生成模型,长短时记忆网络,利用深度网络强的函数映射能力和表征能力,能够有效提取认知雷达动作间特征,并映射到变分概率空间,从而完成认知雷达策略学习任务;根据变分概率空间的随机变量,通过在概率空间中采样后通过结合长短时记忆网络和注意力机制的模块,可以完成对认知雷达动作的预测;本发明专利技术方法不需要对环境信息进行较强的假设,并在1500条随机生成的认知雷达行为轨迹,预测准确率超过90%。

【技术实现步骤摘要】

本专利技术属于雷达电子侦察,具体涉及一种基于策略学习的认知雷达动作预测方法


技术介绍

1、自从2006年加拿大教授simon haykin首次直接提出认知雷达(cognitive radar,cr)概念以来,认知雷达便作为下一代雷达技术得到了国内外雷达研究者的广泛关注和深入研究。认知雷达利用从操作环境中获取的信息、知识与对环境的理解,提升雷达的信息提取、数据处理和雷达管理性能。认知雷达与传统雷达最显著的区别在于认知雷达所具有的感知-动作环路(perception action cycle,pac)。以雷达跟踪pac为例,接收机获得对环境场景的分析后,将对环境场景的感知转换成反馈信息反馈至环境场景执行器,然后雷达动态调整或优化发射机下一时刻的发射信号以增强性能。认知雷达的场景执行器通常采取随机优化模型实现上述感知-动作环路,以在存在不确定性信息的情况下获得最优动作策略,进行最优动作决策。

2、认知雷达感知-动作环路所带来的发射机自由度提升、发射信号复杂多样,动作策略随机优化过程(以下简称随机优化过程)导致雷达行为动作具有动态捷变、行为动作在可观测信号空间不相关或者弱相关等特点,给电子对抗系统的精准干扰与博弈对抗带来极大的挑战,具体体现在:1)对认知雷达的复杂行为动作策略规律学习不准,造成未来动作预测错误,导致干扰精准度降低甚至失败;2)无法准确获知驱动认知雷达行为动作的雷达策略,致使博弈对抗缺乏对手方信息,造成博弈对抗性能受限甚至失败。

3、对侦察方而言,就需要从侦察方可观测的侦查方和雷达方交互序列着手,对雷达方的随机优化过程中各个内部不可观测变量的后验进行估计与推理,以最终实现对认知雷达动作策略的学习。若雷达方内部随机优化过程中的随机变量数目和类型已知,则可直接基于贝叶斯准则求解得到雷达动作关于这些变量的后验概率函数。但在侦察方视角下,雷达方内部随机优化过程中的随机变量数目、类型未知,单个时间步随机变量之间以及随机变量与侦察方可观测变量之间的依赖关系与具体形式未知,这些随机变量与可观测变量在整个观测轨迹上的时序依赖关系与具体形式复杂且未知,即精确的贝叶斯推理不可行。因此需要在变量与依赖关系未知情况下对复杂且可能服从任意阶次马尔可夫过程的长时间序列关系进行建模与后验概率的近似,并基于环境状态未来的演变预期对未知变量未来的演变情况进行推理,最终实现对未来雷达动作的精准预测。

4、时序深度学习模型是一种拥有多个非线性映射层的神经网络模型,能够对输入序列进行逐层抽象并提取特征,挖掘出更深层次的潜在规律,且对噪声等有很强的鲁棒性。在深度学习中,长短时记忆神经网络(long short term memory,lstm)不需要过多先验与假设,直接从可用数据中学习,能够有效处理时序数据,往往能够取得比隐马尔可夫模型等传统方法更好的效果。将时序深度学习模型与传统状态空间模型结合,能够利用各自模型的优势,取得更强的表征能力,实现更好的对认知雷达动作的策略学习与动作预测性能。


技术实现思路

1、本专利技术提出了一种基于策略学习的认知雷达动作预测方法,该方法通过观测认知雷达和环境的交互过程序列实现对认知雷达动作的策略学习并能够给出对未来动作的概率性预测结果。

2、一种基于策略学习的认知雷达动作预测方法,包括如下步骤:

3、步骤一、构建深度时序生成式模型中的生成模型:

4、生成模型通过总观测时长内的隐变量序列z1:t来估计观测变量a1:t;首先使用生成模型的神经网络参数θ表示(z1:t,a1:t)的联合条件概率分布,并沿着时间进行因式分解,表示为:

5、

6、其中,随机变量序列a1:t=(a1,a2,…,at)表示认知雷达的动作序列,a1,a2,…表示各时刻的动作;认知雷达所处环境的状态转移过程定义为随机变量序列上的概率分布,记s1:t=(s1,s2,…,st)为环境状态序列,s1,s2,…表示各时刻的状态;侦查干扰方观测到的雷达和动态环境的交互过程序列表征为:d={<(s1,a1),(s2,a2),…,(st,at)>},其中,t为总观测时长;

7、概率函数pθ(x|y)中,符号“|”后的变量表示神经网络的输入,符号“|”前的变量表示神经网络的输出,即为在输入为y的条件下,输出x的概率;

8、生成模型的计算过程写为:

9、

10、

11、

12、

13、

14、

15、

16、

17、

18、其中,时刻t=2时,和的值均为随机初始化的值;公式(1)-(4)的表示由长短时记忆神经网络模块实现的非线性函数,公式(2)-(5)中的a代表长短时记忆神经网络的输入,b代表神经网络的参数,n=1,2,3,4;公式(8)中的datt为注意力机制层,ct代表语义变量;公式(6)和公式(9)中的dz()和da()是随时间分布的全连接层,将特征向量映射到变分特征空间中;表示向量拼接操作,θatt,θz,θa分别表示注意力机制层datt(),全连接层dz()和全连接层da()对应的网络参数;公式(6)中,代表变分隐状态空间的均值和方差;公式(7)中的代表正态分布函数,在隐藏空间中采样即可得到隐藏变量;代表动作空间的均值和方差,在动作空间中按照正态分布采样可以得到动作样本;即为生成模型输出的概率分布函数;生成模型的输出为类别变量,需要使用如下全连接层和softmax激活函数对参数化:

19、

20、其中a∈a代表认知雷达从动作集合a中选取动作对应的类别,wa,ba和wa′,ba′分别是全连接层中对应于动作类别a和a′的权重参数;

21、其中,采取注意力机制提升对时间序列特征的提取与表征能力,注意力机制层可以通过如下描述实现,注意力机制层的函数表达为:

22、

23、其中watt为注意力机制的权重;使用上述打分值计算全局对齐权重attt(τ):

24、

25、其中,τ′=1,2,…,t;

26、采用attt(τ)和计算得到语义向量ct(τ):

27、

28、其中为向量的hadamard积;

29、步骤二、构建深度时序生成式模型中的推理模型:推理模型基于观测变量序列s1:t和a1:t估计隐变量序列z1:t,沿着时间轴进行因式分解得:

30、

31、基于变分推理采用变分分布对pθ(z1:t|s1:t,a1:t)进行变分近似,即采用变分分布来近似pθ(z1:t|s1:t,a1:t);推理模型的计算通过下述式子实现:

32、

33、

34、

35、

36、其中,时刻t=2时,和的值均为随机初始化的值;和是lstm模块实现的非线性函数;dz()为随时间分布的全连接层;和分别是隐状态空间的中高斯分布的均值和方差;和本文档来自技高网...

【技术保护点】

1.一种基于策略学习的认知雷达动作预测方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于策略学习的认知雷达动作预测方法,其特征在于,在步骤一,步骤二,步骤三中,根据雷达信号的层次化信号生成机制和变量间的相互作用过程,可以将预测方法扩展到包括多层隐变量的形式:

3.如权利要求1或2所述的一种基于策略学习的认知雷达动作预测方法,其特征在于,预测算法搜索时间步t的前k个似然值最大的路径,每一条路径对应大小为|A|的预测分布,具体为:

【技术特征摘要】

1.一种基于策略学习的认知雷达动作预测方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于策略学习的认知雷达动作预测方法,其特征在于,在步骤一,步骤二,步骤三中,根据雷达信号的层次化信号生成机制和变量间的相互作...

【专利技术属性】
技术研发人员:朱梦韬鲍加迪李云杰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1