System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的干扰资源分配快速决策方法技术_技高网

一种基于强化学习的干扰资源分配快速决策方法技术

技术编号:40058242 阅读:6 留言:0更新日期:2024-01-16 22:16
本发明专利技术涉及一种基于强化学习的干扰资源分配快速决策方法,包括以下步骤:引入干扰持续时间,以整个通信周期下干扰方所消耗的总能量最小为目标,构建系统模型;采用基于强化学习的快速决策干扰算法对所述系统模型进行求解,得到干扰决策和资源分配方案,其中,所述快速决策干扰算法采用全并行结构DQN网络,所述全并行结构DQN网络包括信道子网络和功率‑模式‑时间联合子网络;所述信道子网络用于选择干扰信道,所述功率‑模式‑时间联合子网络用于选择干扰功率、干扰样式以及干扰持续时间;所述信道子网络和功率‑模式‑时间联合子网络能够平行学习。本发明专利技术能够更有效的进行干扰和资源分配。

【技术实现步骤摘要】

本专利技术涉及信号干扰,特别是涉及一种基于强化学习的干扰资源分配快速决策方法


技术介绍

1、近年来,随着各种电子信息技术在军事领域的广泛应用,认知电子战在现代战争中发挥的作用显得愈加重要。其中,认知通信对抗系统是认知电子战系统中的一个重要组成部分,而干扰决策优化环节则是认知通信对抗中的关键要点和技术难点。确保在有限的时间内成功干扰目标,同时使资源利用率最大化是一个迫切需要解决的问题,也是干扰决策面临的重大挑战。

2、在智能干扰决策领域的研究中,主要是关注如何实时感知无线通信环境并做出相应的干扰决策。具体来说,智能干扰决策系统需要通过感知技术实时监测无线通信环境,获取关键信息,同时对感知到的信息进行准确的解读,并基于已有知识和模型进行推理和决策。值得注意的是,智能干扰决策不仅仅是简单地对抗干扰,而是要通过对干扰效果的实时评估和学习,不断优化干扰策略,以应对不同的敌方反制措施和变化的通信环境。这种“边对抗边学习”的能力使得智能干扰决策系统能够适应各种复杂的干扰场景,并具备持续进化的能力。

3、在通信干扰领域,目前仍然主要使用传统的干扰方法,例如连续干扰、反应干扰、欺骗干扰、随机周期干扰和扫频干扰等。这些方法在一定程度上可以对通信系统造成干扰,但在面对复杂的战场通信环境时存在一些限制。特别是在实现精确干扰和高效利用干扰资源方面,传统干扰方法往往显得不够灵活和智能化,不能动态地调整干扰策略以实现精确干扰,无法根据实时需求和环境条件来优化干扰资源的分配和利用,从而导致资源浪费或无法达到预期的干扰效果。另外,随着通信技术的不断发展,各种智能抗干扰技术被提出,以应对不断增强的通信安全需求。然而,这些智能抗干扰技术也给干扰决策带来了巨大的挑战。

4、目前,智能干扰资源分配领域的研究主要专注于优化干扰功率和干扰样式,以提高干扰资源的利用效率。然而,这些方法常常忽视了干扰持续时间对干扰资源分配的重要影响。最优的干扰方案是与持续时间直接相关的,仅追求低功率而忽略干扰持续时间可能会导致干扰资源的浪费。

5、为应对复杂多变的对抗场景,智能干扰机通常需要考虑多种干扰参数,例如干扰功率、频域和调制样式等等。然而,干扰机的多维干扰决策参数不可避免地带来了一个大规模决策空间的问题。在强化学习训练过程中,环境所带来的大规模决策空间问题会严重降低智能体的学习速度,加剧训练过程的收敛难度,甚至无法收敛,这对于分秒必争的战争环境中是十分致命的。虽然有部分研究工作提供了相应的解决方案,但是都是通过牺牲网络的复杂度与计算量去提高算法的学习速度,这对计算能力较差的干扰设备来说也是不切实际的。因此,仅仅通过增加网络结构,利用单一网络将全部干扰参数集中输出难以从根本上解决强化学习中状态动作空间过大问题。


技术实现思路

1、本专利技术所要解决的技术问题是提供一种基于强化学习的干扰资源分配快速决策方法,能够更有效的进行干扰和资源分配。

2、本专利技术解决其技术问题所采用的技术方案是:提供一种基于强化学习的干扰资源分配快速决策方法,包括以下步骤:

3、引入干扰持续时间,以整个通信周期下干扰方所消耗的总能量最小为目标,构建系统模型;

4、采用基于强化学习的快速决策干扰算法对所述系统模型进行求解,得到干扰决策和资源分配方案,其中,所述快速决策干扰算法采用全并行结构dqn网络,所述全并行结构dqn网络包括信道子网络和功率-模式-时间联合子网络;所述信道子网络用于选择干扰信道,所述功率-模式-时间联合子网络用于选择干扰功率、干扰样式以及干扰持续时间;所述信道子网络和功率-模式-时间联合子网络能够平行学习。

5、所述系统模型的目标函数为:所述系统模型的约束条件为:其中,esum为整个通信周期下干扰方所消耗的总能量,pj(n)为每个时隙n下干扰方的干扰功率,k(n)为每个时隙n下干扰方的干扰持续时间,n为整个通信周期的时隙数量,jsr为干扰方的成功干扰率;λ为最低干扰成功率阈值;表示干扰方最大干扰功率,emax表示干扰方最大能量。

6、所述采用基于强化学习的快速决策干扰算法对所述系统模型进行求解时,所述系统模型被描述为一个马尔可夫决策过程,其中,状态s(n)包括:通信方τ步的历史信道信息sf(n)、通信方发射功率和调制样式信息spm(n)、以及侦听到的nack包数量ζ(n);动作a(n)包括:干扰方所选择的信道动作af(n)、以及干扰方所选择的功率大小、干扰样式以及干扰持续时间apmt(n);奖励r(n)表示为:r(n)=αrf(n)+(1-α)rpmt(n),其中,α为任务重要度系数,rf(n)为干扰信道奖励函数,rpmt(n)为干扰效果奖励函数;转移概率矩阵p设定为确定概率1。

7、所述干扰信道奖励函数rf(n)表示为:其中,fj(n)为每个时隙n下干扰信道中心频率,fi(n)为每个时隙n下通信信道中心频率,ε为门限值;所述干扰效果奖励函数rpmt(n)表示为:rpmt(n)=μser(n)-pj(n)k(n)+ser,其中,μser(n)为每个时隙n下干扰成功的指示函数,表示为ser为符号错误率,η为最低干扰误码率阈值,pj(n)为每个时隙n下干扰方的干扰功率,k(n)为每个时隙n下干扰方的干扰持续时间。

8、所述信道子网络和功率-模式-时间联合子网络的结构大小与强化学习超参数由以下公式确定:其中,n1和n2分别为信道子网络和功率-模式-时间联合子网络的结构大小,p1和p2分别为信道子网络和功率-模式-时间联合子网络的超参数大小;c为干扰信道个数,w为干扰电平个数,l为调制样式个数。

9、所述信道子网络由三层线性层和两层relu层组成;所述功率-模式-时间联合子网络由五层线性层、三层relu层和一层tanh层组成。

10、所述全并行结构dqn网络进行训练时,具体规则为:只有当干扰信道与通信信道相同时,所述功率-模式-时间联合子网络才进行更新,否则只更新所述信道子网络;当所述信道子网络已满足收敛条件时,则停止更新所述信道子网络,并维持此时所述信道子网络的参数,只对所述功率-模式-时间联合子网络进行更新,直至所述信道子网络和功率-模式-时间联合子网络同时收敛。

11、有益效果

12、由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术将干扰持续时间这一参数引入到模型中,同时考虑了能量受限场景,本专利技术还针对大规模决策空间训练速度慢、收敛困难的问题,提出了一种基于强化学习的干扰资源分配快速决策算法,该算法将一个集中输出的单策略网络分成两个具有独立决策和学习能力的子网络,并行学习通信信道的变化模式和干扰的影响,从而降低了网络的复杂性,实现了更有效的干扰和资源分配。本专利技术提出了一个基于任务重要性的奖励函数,该奖励函数结合干扰效果反馈信息和干扰资源利用信息,对每种组合参数进行价值评估,能够更好的帮助能量受限型干扰机快速选择每个时隙下的最优干扰方案,能够实现在成功干扰目标全部信息情况下,同时得本文档来自技高网...

【技术保护点】

1.一种基于强化学习的干扰资源分配快速决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述系统模型的目标函数为:所述系统模型的约束条件为:其中,Esum为整个通信周期下干扰方所消耗的总能量,pj(n)为每个时隙n下干扰方的干扰功率,k(n)为每个时隙n下干扰方的干扰持续时间,N为整个通信周期的时隙数量,JSR为干扰方的成功干扰率;λ为最低干扰成功率阈值;表示干扰方最大干扰功率,Emax表示干扰方最大能量。

3.根据权利要求1所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述采用基于强化学习的快速决策干扰算法对所述系统模型进行求解时,所述系统模型被描述为一个马尔可夫决策过程,其中,状态S(n)包括:通信方τ步的历史信道信息sf(n)、通信方发射功率和调制样式信息spm(n)、以及侦听到的NACK包数量ζ(n);动作A(n)包括:干扰方所选择的信道动作af(n)、以及干扰方所选择的功率大小、干扰样式以及干扰持续时间apmt(n);奖励R(n)表示为:R(n)=αrf(n)+(1-α)rpmt(n),其中,α为任务重要度系数,rf(n)为干扰信道奖励函数,rpmt(n)为干扰效果奖励函数;转移概率矩阵P设定为确定概率1。

4.根据权利要求3所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述干扰信道奖励函数rf(n)表示为:其中,fj(n)为每个时隙n下干扰信道中心频率,fi(n)为每个时隙n下通信信道中心频率,ε为门限值;所述干扰效果奖励函数rpmt(n)表示为:rpmt(n)=μSER(n)-pj(n)k(n)+SER,其中,μSER(n)为每个时隙n下干扰成功的指示函数,表示为SER为符号错误率,η为最低干扰误码率阈值,pj(n)为每个时隙n下干扰方的干扰功率,k(n)为每个时隙n下干扰方的干扰持续时间。

5.根据权利要求1所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述信道子网络和功率-模式-时间联合子网络的结构大小与强化学习超参数由以下公式确定:其中,N1和N2分别为信道子网络和功率-模式-时间联合子网络的结构大小,P1和P2分别为信道子网络和功率-模式-时间联合子网络的超参数大小;C为干扰信道个数,W为干扰电平个数,L为调制样式个数。

6.根据权利要求1所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述信道子网络由三层线性层和两层relu层组成;所述功率-模式-时间联合子网络由五层线性层、三层relu层和一层tanh层组成。

7.根据权利要求1所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述全并行结构DQN网络进行训练时,具体规则为:只有当干扰信道与通信信道相同时,所述功率-模式-时间联合子网络才进行更新,否则只更新所述信道子网络;当所述信道子网络已满足收敛条件时,则停止更新所述信道子网络,并维持此时所述信道子网络的参数,只对所述功率-模式-时间联合子网络进行更新,直至所述信道子网络和功率-模式-时间联合子网络同时收敛。

...

【技术特征摘要】

1.一种基于强化学习的干扰资源分配快速决策方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述系统模型的目标函数为:所述系统模型的约束条件为:其中,esum为整个通信周期下干扰方所消耗的总能量,pj(n)为每个时隙n下干扰方的干扰功率,k(n)为每个时隙n下干扰方的干扰持续时间,n为整个通信周期的时隙数量,jsr为干扰方的成功干扰率;λ为最低干扰成功率阈值;表示干扰方最大干扰功率,emax表示干扰方最大能量。

3.根据权利要求1所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述采用基于强化学习的快速决策干扰算法对所述系统模型进行求解时,所述系统模型被描述为一个马尔可夫决策过程,其中,状态s(n)包括:通信方τ步的历史信道信息sf(n)、通信方发射功率和调制样式信息spm(n)、以及侦听到的nack包数量ζ(n);动作a(n)包括:干扰方所选择的信道动作af(n)、以及干扰方所选择的功率大小、干扰样式以及干扰持续时间apmt(n);奖励r(n)表示为:r(n)=αrf(n)+(1-α)rpmt(n),其中,α为任务重要度系数,rf(n)为干扰信道奖励函数,rpmt(n)为干扰效果奖励函数;转移概率矩阵p设定为确定概率1。

4.根据权利要求3所述的基于强化学习的干扰资源分配快速决策方法,其特征在于,所述干扰信道奖励函数rf(n)表示为:其中,fj(n)为每个时隙n下干扰信道中心频率,fi(n)为每个时隙n下通信...

【专利技术属性】
技术研发人员:陆永安唐洪莹
申请(专利权)人:中国科学院上海微系统与信息技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1