一种基于深度Q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统技术方案

技术编号:19391377 阅读:55 留言:0更新日期:2018-11-10 02:57
本发明专利技术公开了一种深度Q神经网络抗干扰模型及智能抗干扰算法。模型为:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信进行干扰,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征。算法为:首先,通过深度Q神经网络得到拟合对应的Q值表;其次,用户依概率选择一个策略,根据该策略的回报值和下一步环境状态进行训练,并更新网络权重和选频策略;当达到最大循环次数时,算法结束。本发明专利技术模型完备,物理意义清晰,设计算法合理有效,能够很好地刻画基于深度强化学习算法的抗干扰场景。

A deep Q neural network anti-jamming model and intelligent anti-jamming algorithm

The invention discloses a deep Q neural network anti-interference model and an intelligent anti-interference algorithm. The model is that a group of transmitters and receivers communicate with one user, one or more jammers interfere with the user's communication, and the spectrum waterfall diagram of the receiver is used as the input state of learning to calculate the frequency and time domain characteristics of the interference. The algorithm is as follows: Firstly, the corresponding Q-value table is fitted by deep Q-neural network; secondly, the user selects a strategy according to probability, trains according to the return value of the strategy and the next environmental state, and updates the network weight and frequency selection strategy; when the maximum number of cycles is reached, the algorithm ends. The model of the invention is complete, the physical meaning is clear, the design algorithm is reasonable and effective, and the anti-interference scene based on the deep reinforcement learning algorithm can be well depicted.

【技术实现步骤摘要】
一种深度Q神经网络抗干扰模型及智能抗干扰算法
本专利技术属于无线通信
,特别是一种深度Q神经网络抗干扰模型及智能抗干扰算法。
技术介绍
由于无线通信环境的开放性,无线通信系统极易遭受恶意干扰的攻击。此外,由于人工智能技术的飞速发展,使得干扰智能化水平不断提高,未来的通信干扰将呈现“波形灵巧”、“决策智能”等典型特点,使得传统抗干扰技术(如跳频和扩频)的抗干扰能力明显下降,甚至完全丧失,给无线通信系统或网络的稳定和安全带来极大的挑战。因而,迫切需要研究更加高效的抗干扰方法。针对新型的干扰环境特性,引入人工智能技术将是一种可选的方案。用户采用各种智能学习的方法,对干扰波形样式、信号构成和决策规律等进行有效的分析,并以此为基础智能地选取对抗决策,将有效地提升其抗干扰能力。考虑到干扰环境的动态特性,强化学习成为研究智能抗干扰问题最优决策的一种热门工具(参考文献:C.J.C.H.Watkins,etal.,“Q-learning,”Mach.Learn.,,vol.8,pp.279-292,1992)。然而,它无法拓展到状态决策空间庞大的应用环境。
技术实现思路
本专利技术的目的在于提供一种深度Q神经网络抗干扰模型及智能抗干扰算法,很好地刻画基于深度强化学习算法的抗干扰场景。实现本专利技术目的的技术解决方案为:一种深度Q神经网络抗干扰模型,对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度Q神经网络对Q函数进行拟合,作为该模型的决策依据。进一步地,用户接收端的信干噪比SINR表示为:公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,U(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ftj表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数;此外,用βth表示成功传输所需要的SINR门限,定义归一化门限如公式(2)所示:在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:其中,j=1,…,J表示干扰;模型中的离散频谱采样值定义为:其中,Δf表示频谱分辨率;i表示采样数,S(f+fL)为式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界;代理通过频谱向量st={st,1,st,2,...,st,N}决定传输频率,并通过可靠链路通知发送端;st,N为t时刻所决定的第N段传输频率。进一步地,所述的在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,具体如下:在动态未知的通信环境中,模型中的抗干扰问题建模为马尔科夫决策过程,该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数目,St表示一个T×N的二维矩阵,由St矩阵构建出频谱瀑布图。进一步地,所述的环境状态中,S∈{S1,S2,...}表示当前的传播环境状态,a∈{f1,f2,...,fK}是用户的频率选择策略,P(S′|S,a)表示用户的频率选择策略a由状态S变为状态S′的转移概率;对于立即回报r定义为:其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。一种基于深度Q神经网络抗干扰模型的智能抗干扰算法,包括以下步骤:步骤1,初始化:给定ε=1,随机权重θ,感知初始环境S1,通过深度Q神经网络得到拟合对应的Q值表;步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择Q值最大的策略,即at=argamaxQ(St,a;θ);步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;步骤5,更新下一次选择策略的概率ε=max(0.1,ε-Δε),其中Δε为更新步长,并返回步骤2;循环步骤2~5,直至达到最大迭代次数,算法结束。进一步地,步骤1中所述的通过深度Q神经网络得到拟合对应的Q值表,具体如下:首先对使用的深度卷积神经网络进行预处理,预处理过程为:其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;经过预处理后,状态中包含零向量;然后使用深度卷积神经网络CNN对Q函数进行拟合;对于当前的传播环境状态S和用户的频率选择策略a而言,拟合Q函数表示如下:其中,S′表示在状态S采用策略a所产生的下一个状态,γ表示折扣因子。进一步地,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:采用经验回放机制,用et=(St,at,rt,St+1)表示t时刻的代理经验,并将其存贮在矩阵Dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~U(D)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。进一步地,步骤4中所述的计算梯度并更新权值,具体如下:Q学习在第i次迭代使用如式(8)所示损失函数:Li(θi)=Ee~U(D)[(yi-Q(S,a;θi))2](8)其中,θi表示Q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:其中,Li(θi)表示损失函数,表示求梯度运算。本专利技术与现有技术相比,其显著优点在于:(1)对传统卷积神经网络进行预处理,在不影响性能的情况下,降低计算复杂度;(2)模型完备,物理意义清晰,提出的基于深度强化学习的智能抗干扰算法,实现对提出模型的有效求解,求出用户的抗干扰功率控制策略;(3)能够有效地应对动态及智能干扰,并很好地刻画基于深度强化学习算法的抗干扰场景。附图说明图1是本专利技术深度Q神经网络抗干扰模型的系统模型图。图2是本专利技术中抗干扰Q神经网络模型的结构示意图。图3是本专利技术中Q神经网络抗干扰更新过程图。图4是本专利技术实施例1中对抗固定干扰模式的频谱瀑布图。图5是本专利技术中实施1中对抗固定模式干扰的输出信息量的图。图6是本专利技术实施例2中对抗动态及智能干扰模式的频谱瀑布图。具体实施方式本专利技术所提出的深度Q神经网络抗干扰模型及智能抗干扰算法,旨在提供方案以解决智能抗干扰问题。本专利技术基于深度学习算法,将接收端的频谱瀑布图作为学习的输入状态,采用深度Q神经网络对状态的Q值函数进行拟合,并将其作为决策依据;接着,通过相应的决策算法,更新用户的频率选择策略。图1是抗干扰系统模型图。该模型中,一组发射端和接收端对为一个用户,一个用户进行通信,控制系统可以帮助本文档来自技高网...

【技术保护点】
1.一种深度Q神经网络抗干扰模型,其特征在于,对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度Q神经网络对Q函数进行拟合,作为该模型的决策依据。

【技术特征摘要】
1.一种深度Q神经网络抗干扰模型,其特征在于,对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度Q神经网络对Q函数进行拟合,作为该模型的决策依据。2.根据权利要求1所述的深度Q神经网络抗干扰模型,其特征在于,用户接收端的信干噪比SINR表示为:公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,U(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ftj表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数;此外,用βth表示成功传输所需要的SINR门限,定义归一化门限如公式(2)所示:在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:其中,j=1,…,J表示干扰;模型中的离散频谱采样值定义为:其中,Δf表示频谱分辨率;i表示采样数,S(f+fL)为式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界;代理通过频谱向量st={st,1,st,2,...,st,N}决定传输频率,并通过可靠链路通知发送端;st,N为t时刻所决定的第N段传输频率。3.根据权利要求1所述的深度Q神经网络抗干扰模型,其特征在于,所述的在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,具体如下:在动态未知的通信环境中,模型中的抗干扰问题建模为马尔科夫决策过程,该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数目,St表示一个T×N的二维矩阵,由St矩阵构建出频谱瀑布图。4.根据权利要求3所述的深度Q神经网络抗干扰模型,其特征在于,所述的环境状态中,S∈{S1,S2,...}表示当前的传播环境状态,a∈{f1,f2,...,fK}是用户的频率选择策略,P(S′|S,a)表示用户的频率选择策略a由状态S变为状态S′的转移概率;对于立即回报r定义为:其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。5.一种基于深度Q神经网络抗干扰模型的智能抗干扰算法,其特征在于,包括以下步骤:步骤1,初始化:给定ε=1,随机权重θ,感知初始环境S1,通过深度...

【专利技术属性】
技术研发人员:王金龙徐煜华刘鑫徐逸凡李洋洋赵磊冯智斌
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1