一种竞争双深度Q网络智能信道决策方法技术

技术编号:34395963 阅读:23 留言:0更新日期:2022-08-03 21:29
本发明专利技术公开了一种竞争双深度Q网络智能信道决策方法,属于抗干扰通信领域,包括以下步骤:信道选择过程建模为SVN决策过程,由四元组(S,A,R,λ)来描述,其中,S为状态空间,A为动作空间,R为累计奖励函数,为有损因子;定义奖励函数;定义观测状态空间与行动空间;基于竞争双深度Q网络模型的频率抗干扰处理。与现有技术相比,本发明专利技术将可用信道探索问题转化为序贯决策问题,由感知到的环境频谱状态进行信道选择,根据设定的干扰容忍双阈值将信道干扰程度分为严重、中度与轻微3个等级,并对处于中度干扰等级的信道建立竞争双深度Q网络智能信道决策模型,通过求解得到最佳传输功率,以提高网络整体感知环境的准确性与干扰信道决策成功率。策成功率。策成功率。

【技术实现步骤摘要】
一种竞争双深度Q网络智能信道决策方法


[0001]本专利技术属于抗干扰通信领域,具体涉及一种竞争双深度Q网络智能信道决策方法。

技术介绍

[0002]近年来,如何有效对抗智能性干扰与提高通信安全已成为研究热点。在抗干扰技术研究中,认知抗干扰算法已成为研究热点方向之一,该算法可归纳为如下两类:一类是基于强化学习理论进行可用信道的选择,主动规避干扰信道,从而实现频域抗干扰。一些学者提出基于协作Q学习(Q

Learning,QL)的信道选择算法,该算法可提高数据传输成功率,但当状态空间规模较大时,其面临维数灾难的问题。针对该问题,研究人员提出将深度Q网络(DQN)在线学习算法应用于信道选择。当信道数量较多时,一些研究利用演员

评论家(Actor

Critic,AC)算法进行信道选择,但是该算法存在方差较大以及稳定性较差的问题。另一类是基于博弈论的方法,根据敌我双方的竞争关系,建立功率域抗干扰博弈模型,通过求解博弈均衡得到最佳传输功率,实现从功率上压制干扰信号以达到抗干扰的目的。以上算法均是仅从单个频域或者功率域角度考虑,针对智能性干扰攻击的灵活性较差。

技术实现思路

[0003]专利技术目的:针对现有技术中存在的问题,本专利技术公开了一种竞争双深度Q网络智能信道决策方法,在充满各种干扰的工厂环境下实时采集数据,利用信号频率在不同维度下的特性,基于SVN机器学习理论,构建信号频率自识别与自主决策的理论模型,形成动态抗干扰方法。
[0004]技术方案:本专利技术提供一种竞争双深度Q网络智能信道决策方法,包括如下步骤:
[0005]步骤1:信道选择过程建模为SVN决策过程,由四元组(S,A,R,λ)来描述,其中,S为状态空间,A为动作空间,累计奖励函数λ∈[0,1]为有损因子;
[0006]步骤2:定义奖励函数R
t
,获得即时奖励
[0007]步骤3:定义观测状态空间与行动空间;
[0008]步骤4:构建竞争双深度Q网络模型,基于竞争双深度Q网络模型的频率抗干扰处理。
[0009]进一步地,所述步骤1中SVN的决策过程是序贯决策问题,最终目标是找到最优决策序列π(s,a):S
×
A

R
+
,以得到最大期望奖励Q
*
(s,a),即给定状态s∈S和动作a∈A下,选择最优策略π(s,a)获得最大期望奖励Q
*
(s,a)=max
π
Q(s,a)=E[R
t
|s
t
=s,a
t
=a]。
[0010]进一步地,所述步骤S2中将奖励函数R
t
定义为通信安全容量可表示为:
[0011][0012]其中,[
·
]+
=max{0,
·
},奖励函数},奖励函数为无干扰情况下,在时间步t内,认知节点i的信息传输速率,为存在干扰情况下,在时间步t内,认知节点i的信息
传输速率;表示为:
[0013][0014][0015]其中,设网络当前通信总带宽为W,将其均分为K个子信道,并记为b,则有其中,设网络当前通信总带宽为W,将其均分为K个子信道,并记为b,则有为时间步t内的通信信道,γ
NJ
(t)为在时间步t,无干扰时,节点i的接收信号干燥比为γ
NJ
(t),γ
YJ
(t)为在时间步t,有干扰时,节点i的接收信号干燥比为γ
NJ
(t),分别表示为:
[0016][0017][0018]其中,为认知节点i的传输功率,P
J
(t)为干扰的干扰功率;g
J
分别为认知节点i和干扰的信道增益,为网络中不包含认知节点i的其他邻节点对认知节点i的干扰功率总和,ε为高斯加性白噪声。
[0019]进一步地,步骤S3中,设环境状态空间S为节点i的前一个时刻感知频谱状态b
t
‑1决定,则时刻t的状态s
t
可表示为:
[0020]s
t
:=b
t
‑1,s
t
∈S
[0021]节点根据观测状态s
t
和即时奖励R
t
进行信道选择,将动作空间定义为可选信道,则有A={1,2,...,K},K为子信道个数,对应于信道索引,信道选择过程可描述为在时间步t,节点由状态s
t
,选择信道a
t
=k∈A,获得即时奖励
[0022]进一步地,步骤S4中竞争双深度Q网络模型通过不断的更新参数θ,使得值函数V
θ
(s)更加逼近真实的累计奖励值同时通过不断地更新参数w,使得其尽可能得到好的策略π
w
(s,a),即:
[0023][0024][0025]式中,d(s)对应起始状态。
[0026]进一步地,在所述竞争双深度Q网络模型每一步的更新中,根据当前状态s和策略π
w
(s,a),执行动作a,转到下一状态s

,得到立即奖励再根据真实奖励和之前标准下的评分修正评价标准。
[0027]进一步地,在所述竞争双深度Q网络模型目标函数中加入策略的熵正则化项,网络参数w基于策略梯度下降的计算公式为:
[0028][0029]式中,为策略梯度的熵,E[
·
]为期望,η为策略梯度的熵在目标函数中权重,α,β为网络学习率,值网络模型目标函数梯度:
[0030][0031]通过竞争双深度Q网络模型算法决策出各信道干扰情况后,根据给定信道干扰容忍双阈值与将干扰功率划分为严重、中度、轻微三个等级。
[0032]有益效果:
[0033]本专利技术将功率域和频域抗干扰方法相结合,提出一种竞争双深度Q网络智能信道决策方法。该方法将可用信道探索问题转化为序贯决策问题,由感知到的环境频谱状态进行信道选择。根据设定的干扰容忍双阈值将信道干扰程度分为严重、中度与轻微3个等级,并对处于中度干扰等级的信道建立功率域斯塔克伯格博弈模型,通过求解博弈均衡得到最佳传输功率,以提高网络整体感知环境的准确性与干扰信道决策成功率。利用感知到的频谱状态信息进行信道选择,以提高算法的收敛速度与信道决策成功率,并在此基础上,根据得到的功率干扰等级,利用功率域进行抗干扰,以减少信道切换时间、提高接收信号SINR。整体抗干扰性能较好,同时,本专利技术决策方法进一步改善网络的抗干扰性能。
附图说明
[0034]图1为本专利技术的方法流程简图。
具体实施方式
[0035]下面结合附图对本专利技术作更进一步的说明。
[0036]本专利技术公开了一种竞争双深度Q网络智能信道决策方法,在充满各种干扰的工厂环境下实时采集数据,利用信号频率在不同维度下的特性,基于SV本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种竞争双深度Q网络智能信道决策方法,其特征在于,包括如下步骤:步骤1:信道选择过程建模为SVN决策过程,由四元组(S,A,R,λ)来描述,其中,S为状态空间,A为动作空间,累计奖励函数λ∈[0,1]为有损因子;步骤2:定义奖励函数R
t
,获得即时奖励步骤3:定义观测状态空间与行动空间;步骤4:构建竞争双深度Q网络模型,基于竞争双深度Q网络模型的频率抗干扰处理。2.根据权利要求1所述的竞争双深度Q网络智能信道决策方法,其特征在于,所述步骤1中SVN的决策过程是序贯决策问题,最终目标是找到最优决策序列π(s,a):S
×
A

R
+
,以得到最大期望奖励Q
*
(s,a),即给定状态s∈S和动作a∈A下,选择最优策略π(s,a)获得最大期望奖励Q
*
(s,a)=max
π
Q(s,a)=E[R
t
|s
t
=s,a
t
=a]。3.根据权利要求1所述的竞争双深度Q网络智能信道决策方法,其特征在于,所述步骤S2中将奖励函数R
t
定义为通信安全容量可表示为:其中,[
·
]
+
=max{0,
·
},奖励函数},奖励函数为无干扰情况下,在时间步t内,认知节点i的信息传输速率,为存在干扰情况下,在时间步t内,认知节点i的信息传输速率;表示为:表示为:其中,设网络当前通信总带宽为W,将其均分为K个子信道,并记为b,则有其中,设网络当前通信总带宽为W,将其均分为K个子信道,并记为b,则有为时间步t内的通信信道,γ
NJ
(t)为在时间步t,无干扰时,节点i的接收信号干燥比为γ
NJ
(t),γ
YJ
(t)为在时间步t,有干扰时,节点i的接收信号干燥比为γ
NJ
(t),分别表示为:(t),分别表示为:其中,为认知节点i的传输功率,...

【专利技术属性】
技术研发人员:李浩王敏刘宝龙
申请(专利权)人:淮安欧特科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1