抗干扰零和马尔可夫博弈模型及最大最小深度Q学习方法技术

技术编号：39058959 阅读：31 留言：0更新日期：2023-10-12 19:51

本发明专利技术公开了抗干扰零和马尔可夫博弈模型及最大最小深度Q学习方法。模型为：考虑包含一对通信收发机、一个固定干扰机和一个智能干扰机的通信对抗场景，固定干扰机释放扫频干扰，智能干扰机优化干扰信道选择，用户优化信道和功率选择来最大化传输效用，将对抗交互过程建模为抗干扰零和马尔可夫博弈模型。方法为：初始化抗干扰网络参数和训练超参数；构建频谱瀑布图并输入抗干扰网络，输出对抗Q值矩阵；计算并执行抗干扰动作，计算当前动作获得的奖励值并保存对抗记录；采样对抗记录计算Q值估计误差并通过反向梯度算法更新抗干扰网络，循环上述交互过程直至完成网络训练。本发明专利技术能有效解决干扰策略更新导致环境非平稳变化的问题，获得更加稳健的抗干扰策略。获得更加稳健的抗干扰策略。获得更加稳健的抗干扰策略。

全部详细技术资料下载

【技术实现步骤摘要】
抗干扰零和马尔可夫博弈模型及最大最小深度Q学习方法

[0001]本专利技术属于无线通信
，特别是一种抗干扰零和马尔可夫博弈模型及最大最小深度Q学习方法。

技术介绍

[0002]由于无线信道的开放性，在无线通信网络中合法用户通信易受到恶意用户的干扰攻击。因此，通信抗干扰技术无论在民用通信还是军用通信都起着至关重要的作用。然而传统的通信抗干扰方式，如跳频扩频和直接序列扩频模式固定，难以有效应对动态化干扰。为此，近年来基于机器学习的智能抗干扰技术不断被研究者提出，通过人工智能算法的赋能，合法用户能够通过学习挖掘干扰变化规律，从而采取高效可靠的通信方式。已有研究将深度强化学习方法应用于抗干扰领域，用户无需干扰先验信息的条件下通过与干扰环境交互学习获得最优的接入策略(X.Liu et al.,“Anti
‑
jamming communications using spectrum waterfall:A deep reinforcement learning approach,”IEEE Communications Letter本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种抗干扰零和马尔可夫博弈模型，其特征在于，该模型中用户和智能干扰均具备环境观察和策略更新能力，且双方均观察环境状态并做出决策，进而改变环境状态，用户的目标是最大化传输效用，而智能干扰具有完全相反的目标，双方效用之和为零。2.基于权利要求1所述抗干扰零和马尔可夫博弈模型的基于最大最小深度Q学习的抗智能干扰方法，其特征在于，所述方法包括以下步骤：步骤1，将智能干扰威胁下的抗干扰问题，建模为所述抗干扰零和马尔可夫博弈模型，博弈的参与者为用户和智能干扰，其中用户的优化目标是获得最恶劣干扰策略的最优抗干扰策略，对应于纳什均衡策略；步骤2，用户构建抗干扰决策网络并随机初始化网络参数，同时设置网络训练的超参数，包括学习率α、折扣因子γ、探索概率ε0、目标网络更新步长N
T
，经验重放单元步骤3，用户感知实时环境频谱状态，并将历史感知数据构建成频谱瀑布图s
t
，将所述频谱瀑布图输入所述抗干扰决策网络中，计算输出当前状态Q值矩阵Q(s
t
,
·
|θ)，其中θ表示决策网络参数，然后利用ε
‑
贪婪策略和线性规划计算当前抗干扰动作a
t
＝(f
ut
,p
t
)并执行联合动作；其中，f
ut
和p
t
分别是用户通信频率和发射功率；步骤4，计算当前动作下的回报值r
t
，并通过感知数据获得干扰动作o
t
，并构造频谱状态s
t+1
，将交互记录e
t
＝(s
t
,a
t
,o
t
,r
t
,s
t+1
)添加至经验重放单元即步骤5，从经验重放单元中随机抽取训练样本集其中(s
i
,a
i
,o
i
,r
i
,s
′
i
)分别表示第i个训练样本中的当前状态s
i
、抗干扰动作a
i
、干扰动作o
i
、回报值r
i
以及下一状态s
′
i
，然后计算Q值估计误差值L(θ)，之后利用梯度下降方法更新抗干扰决策网络；步骤6，循环步骤3～步骤5，直至达到指定迭代次数。3.根据权利要求2所述的基于最大最小深度Q学习的抗智能干扰方法，其特征在于，步骤1中建模为抗干扰零和马尔可夫博弈模型，具体为：抗干扰零和马尔可夫博弈用六元组表示；其中，为环境状态集合，环境状态定义为频谱瀑布图，其包含时、频、功三维信息；表示用户动作集合，用户选择信道功率联合决策进行抗干扰通信；表示干扰动作集合，干扰选择信道来干扰用户传输；表示状态转移函数，表示在用户和干扰动作影响下转移到下一状态的概率；表示奖励值函数，定义为r
t
＝C
t
‑
ωp
t
，其中C
t
表示传输速率，ω表示代价因子，p
t
表示用户功率；γ表示表示折扣因子；考虑最差干扰情况，用户的优化目标是获取最优抗干扰策略π
*
以最大化未来累积折扣回报值：其中表示在状态s
t
下，用户和干扰分别采用策略π和μ时，用户获得的未来累积折扣回报值，状态s变化服从转移函数户获得的未来累积折扣回报值，状态s变化服从转移函数表示计算期望值，γ为折扣因子，r
t+i
表示在t+i时刻的回报值；在零和随机博弈中，上述求解目标对应于求解博弈纳什均衡策略。
4.根据权利要求2所述的基于最大最小深度Q学习的抗智能干扰方法，其特征在于，步骤2中抗干扰决策网络包括两层卷积网络和三层全连接网络，其中卷积层用于提取频谱瀑布图的有用特征并降低计算复杂度，全连接层用于整合特征值并计算Q值矩阵；第一层卷积层包括f1个卷积核，卷积核大小为z1×
z1，步长为d1；第二层卷积层包括f2个卷积核，卷积核大小为z2×
z2，步长为d2；第一层和第二层全连接层的神经元数量分别为n1和n2；抗干扰决策网络最后一层全连接层的神经元数量为5.根据权利要求2所述的基于最大最小深度Q学习的抗智能干扰方法，其特征在于，步骤3中将历史感知数据构建成频谱瀑布图s
t
，具体为：用户在时刻t感知采样得到的瞬时频谱数据为o
...

【专利技术属性】
技术研发人员：徐煜华，李文，陈瑾，冯智斌，韩昊，袁鸿程，徐逸凡，
申请(专利权)人：中国人民解放军陆军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人