基于深度强化学习的共生无线电智能抗干扰方法技术

技术编号:34288413 阅读:29 留言:0更新日期:2022-07-27 08:52
本发明专利技术提供了一种基于深度强化学习的共生无线电智能抗干扰方法,所述共生无线电网络包括发射器、接收器以及干扰器,包括:在每个时隙,发射机根据感测到的状态选择动作与环境交互;发射机收到奖励并感测下一个状态,所述奖励用于表示成功传输概率;获取预设置的DDQN模型,通过DDQN模型通过查找最佳动作值函数Q

【技术实现步骤摘要】
基于深度强化学习的共生无线电智能抗干扰方法


[0001]本专利技术涉及无线通信
,具体地,涉及一种基于双层深度Q网络(Double deep Q

network,DDQN)的共生无线电(symbiotic radio,SR)智能抗干扰方法。

技术介绍

[0002]近年来,随着信息时代中数据的爆炸性增长,对于能量、频谱等珍贵资源都有了全新且更高的要求。然而传统无线通信网络普遍存在着能量供应不足、频谱利用率低下等问题,一定程度上减缓了物联网产业的发展。新兴的共生无线电技术(symbiotic radio,SR)为解决这一问题提供了新思路。SR能够利用认知无线电(Cognitive Radio,CR)和环境反向散射通信技术(ambient backscatter communication,AmBC)的优点,并有效地解决这两种技术的缺点。与CR类似,SR由主系统和次系统两个频谱共享系统组成。然而,SR在CR中实现的是互利的频谱共享,而不是干扰的频谱共享。与AmBC相比,SR通过联合解码实现了高可靠的后向散射通信。因此,SR也被称为认知后向散射通信,它实现了无线网络的频谱利用率和能量效率的双提升。在无线通信系统中,安全和隐私始终是至关重要的。在SR中,主用户通信过程与反向散射通信过程结合在了一起,即两个通信过程共享一个主用户接收机。由于SR中主用户传输和次用户传输之间的共生关系,如果一个攻击者破坏了主用户传输,次用户传输可能会受到影响,所以设计出合适且有效的策略来确保SR的安全和隐私是一个紧迫的问题
[0003]传统无线电通常使用扩频技术,例如跳频或直接序列扩频来减轻干扰攻击。然而,智能干扰器可以跟踪和干扰跳频,共生无线电不能直接使用这些抗干扰方案。而发射机

接收机的对抗干扰通信决策是一个典型的马尔可夫决策过程,最优通信策略可以通过深度强化学习技术来进行学习,这是一种无模型方法,这意味着不需要先验干扰模式和信道模型。因此,用双层深度Q网络(Double deep Q

network,DDQN)来模拟共生无线电网络和干扰器之间的对抗,Q网络使用Transformer编码器实现,以从原始频谱数据中有效地估计动作值,为共生无线电抗干扰提供了可能。

技术实现思路

[0004]针对现有技术中的缺陷,本专利技术的目的是提供一种基于深度强化学习的智能抗干扰方法,能够解决共生无线电容易受到干扰攻击,导致频谱利用率严重下降并且使隐私泄露等问题。
[0005]根据本专利技术提供的基于深度强化学习的共生无线电智能抗干扰方法,所述共生无线电网络包括发射器、接收器以及干扰器,包括如下步骤:
[0006]步骤S1:在每个时隙,发射机根据感测到的状态选择动作与环境交互;
[0007]步骤S2:发射机收到奖励并感测下一个状态,所述奖励用于表示成功传输概率;
[0008]步骤S3:获取预设置的DDQN模型,通过DDQN模型通过查找最佳动作值函数Q
*
(s,a)确定该动作对应的动作值;
[0009]步骤S4:判断所述动作值是否为最佳动作值,且在所述动作值为最佳动作值时输出最佳奖励值。
[0010]优选地,在步骤S2中,每一时隙所述奖励并r
t
为:
[0011]r
t
=r
SINR
(a
t
)

c(a
t
)

C
p
P
U,t
[0012]其中,每一时隙的动作a
t
={f
U,t
,P
U,t
},f
U,t
表示频率通道,P
U,t
表示发射功率,C
p
是单位发射功率的成本。
[0013]优选地,在步骤S3中,所述最佳动作值函数Q
*
(s,a)表示为:
[0014][0015]其中,为计算期望值,π是将序列映射到动作的策略,s
t
为每个时隙的状态,γ是折扣因子。
[0016]优选地,所述最大化奖励值R
t
为:
[0017][0018]其中,i为自然数。
[0019]优选地,在步骤S3中,所述DDQN模型包括当前Q网络和目标Q网络,
[0020]所述当前Q网络,用于动作选择;目标Q网络,用于评估目标动作值;
[0021]通过先前交互动作作为训练样本对所述Q网络模型进行训练使得Q(s,a;θ)≈Q
*
(s,a)。
[0022]优选地,所述目标Q网络的权重定期从当前Q网络复制,当前的Q网络通过最小化以下损失函数来训练,该函数计算当前动作值和目标动作值之间的均方误差:
[0023][0024]其中B表示批量大小,y
i
是目标Q网络使用贪婪策略估计的目标动作值:
[0025]y
i
=r
i
+γQ(s

i
,argmax
a

Q(s

i
,a

;θ)θ

)
[0026]γ是折扣因子,损失函数相对于可学习权重的梯度的计算如下:
[0027][0028]其中,s
i
为第i个状态,a
i
第i个动作。
[0029]优选地,所述Q网络包括Transformer编码器和由全连接层形成的分类器。
[0030]所述Transformer编码器,用于对频谱数据s
t
进行运算,从而提取出频谱特征S
ec

[0031]所述全连接层,用于对频谱特征S
ec
进行估计动作值,从中提取出维度。
[0032]优选地,所述Transformer编码器包括多头自注意力机制层和前馈子层;
[0033]所述多头自注意力机制层,用于对频谱数据及其位置嵌入PE的元素总和S进行矩阵运算,从中提取频谱的重要特征;
[0034]前馈子层,用于对多头自注意力机制层的输出进行筛选,从中剔除无用信息。
[0035]与现有技术相比,本专利技术具有如下的有益效果:
[0036]本专利技术提供的基于DDQN的模拟共生无线电网络和干扰器之间的对抗,Q网络使用Transformer编码器实现,以从原始频谱数据中有效地估计动作值,本专利技术能够有效地防御多种干扰攻击,从而最大限度地提高通信系统的成功传输率;
[0037]本专利技术使用Transformer Encoder模式的DDQN用于共生无线电的抗干扰Transformer Encoder将原始频谱数据作为输入并输出每个通信动作的动作值,这种Transformer Encoder模式的Q网络比CNN模式的Q网络更灵活、更强大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的共生无线电智能抗干扰方法,所述共生无线电网络包括发射器、接收器以及干扰器,其特征在于,包括如下步骤:步骤S1:在每个时隙,发射机根据感测到的状态选择动作与环境交互;步骤S2:发射机收到奖励并感测下一个状态,所述奖励用于表示成功传输概率;步骤S3:获取预设置的DDQN模型,通过DDQN模型通过查找最佳动作值函数Q
*
(s,a)确定该动作对应的动作值;步骤S4:判断所述动作值是否为最佳动作值,且在所述动作值为最佳动作值时输出最佳奖励值。2.根据权利要求1所述的基于深度强化学习的共生无线电智能抗干扰方法,其特征在于,在步骤S2中,每一时隙所述奖励并r
t
为:r
t
=r
SINR
(a
t
)

c(a
t
)

C
p
P
U,t
其中,每一时隙的动作a
t
={f
U,t
,P
U,t
},f
U,t
表示频率通道,P
U,t
表示发射功率,C
p
是单位发射功率的成本。3.根据权利要求2所述的基于深度强化学习的共生无线电智能抗干扰方法,其特征在于,在步骤S3中,所述最佳动作值函数Q
*
(s,a)表示为:其中,为计算期望值,π是将序列映射到动作的策略,s
t
为每个时隙的状态,γ是折扣因子。4.根据权利要求1所述的基于深度强化学习的共生无线电智能抗干扰方法,其特征在于,所述最大化奖励值R
t
为:其中,i为自然数。5.根据权利要求1所述的基于深度强化学习的共生无线电智能抗干扰方法,其特征在于,在步骤S3中,所述...

【专利技术属性】
技术研发人员:曹开田郑孔浩楠
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1