基于深度强化学习的共生无线电智能抗干扰方法技术

技术编号:34288413 阅读:41 留言:0更新日期:2022-07-27 08:52
本发明专利技术提供了一种基于深度强化学习的共生无线电智能抗干扰方法,所述共生无线电网络包括发射器、接收器以及干扰器,包括:在每个时隙,发射机根据感测到的状态选择动作与环境交互;发射机收到奖励并感测下一个状态,所述奖励用于表示成功传输概率;获取预设置的DDQN模型,通过DDQN模型通过查找最佳动作值函数Q

【技术实现步骤摘要】
基于深度强化学习的共生无线电智能抗干扰方法


[0001]本专利技术涉及无线通信
,具体地,涉及一种基于双层深度Q网络(Double deep Q

network,DDQN)的共生无线电(symbiotic radio,SR)智能抗干扰方法。

技术介绍

[0002]近年来,随着信息时代中数据的爆炸性增长,对于能量、频谱等珍贵资源都有了全新且更高的要求。然而传统无线通信网络普遍存在着能量供应不足、频谱利用率低下等问题,一定程度上减缓了物联网产业的发展。新兴的共生无线电技术(symbiotic radio,SR)为解决这一问题提供了新思路。SR能够利用认知无线电(Cognitive Radio,CR)和环境反向散射通信技术(ambient backscatter communication,AmBC)的优点,并有效地解决这两种技术的缺点。与CR类似,SR由主系统和次系统两个频谱共享系统组成。然而,SR在CR中实现的是互利的频谱共享,而不是干扰的频谱共享。与AmBC相比,SR通过联合解码实现了高可靠的后向散射通信。因此,SR也本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的共生无线电智能抗干扰方法,所述共生无线电网络包括发射器、接收器以及干扰器,其特征在于,包括如下步骤:步骤S1:在每个时隙,发射机根据感测到的状态选择动作与环境交互;步骤S2:发射机收到奖励并感测下一个状态,所述奖励用于表示成功传输概率;步骤S3:获取预设置的DDQN模型,通过DDQN模型通过查找最佳动作值函数Q
*
(s,a)确定该动作对应的动作值;步骤S4:判断所述动作值是否为最佳动作值,且在所述动作值为最佳动作值时输出最佳奖励值。2.根据权利要求1所述的基于深度强化学习的共生无线电智能抗干扰方法,其特征在于,在步骤S2中,每一时隙所述奖励并r
t
为:r
t
=r
SINR
(a
t
)

c(a
t
)

C
p
P
U,t
其中,每一时隙的动作a
t
={f
U,t
,P
U,t
},f
U,t
表示频率通道,P
U,t
表示发射功率,C
p
是单位发射功率的成本。3.根据权利要求2所述的基于深度强化学习的共生无线电智能抗干扰方法,其特征在于,在步骤S3中,所述最佳动作值函数Q
*
(s,a)表示为:其中,为计算期望值,π是将序列映射到动作的策略,s
t
为每个时隙的状态,γ是折扣因子。4.根据权利要求1所述的基于深度强化学习的共生无线电智能抗干扰方法,其特征在于,所述最大化奖励值R
t
为:其中,i为自然数。5.根据权利要求1所述的基于深度强化学习的共生无线电智能抗干扰方法,其特征在于,在步骤S3中,所述...

【专利技术属性】
技术研发人员:曹开田郑孔浩楠
申请(专利权)人:上海应用技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1